Cómo funciona

Arrastra un nodo AI Agent en el IVR designer y conéctalo donde quieras delegar a IA: triaje inicial, captura de datos estructurados, FAQ inteligente o cualificación de leads. El caller habla, el agente IA responde con voz natural y al final escala al humano si hace falta.

Pipeline streaming

Audio del caller → VAD detecta habla/silencio en cliente.
Audio → STT streaming (Deepgram, ElevenLabs, Whisper).
Transcript → LLM streaming (OpenAI, Groq, Cerebras, Together).
LLM output JSON ({response, action, variables}) → TTS streaming sentence-by-sentence.
TTS audio → reproducción al caller con uuid_audio_fork bidireccional.

Latencia end-to-end medida: ~600 ms hasta primer audio del bot (con Groq + Deepgram). Mejor que humanos respondiendo "hola, espere".

Barge-in con cooldown anti-echo

Si el caller habla durante una respuesta del bot, VAD detecta speech_start, aborta el TTS en curso y cancela la generación LLM. Procesa la nueva utterance sin loop infinito de auto-interrupción (cooldown configurable post-playback).

JSON output del LLM

El LLM responde siempre con JSON estructurado:

{
  "response": "Perfecto, ¿me confirmas tu DNI?",
  "action": "continue",         // continue | transfer | hangup
  "variables": {
    "intent": "consulta-factura",
    "verified_email": "user@acme.com"
  }
}

response se convierte a voz; action decide qué nodo IVR es el siguiente; variables se mergea a la sesión para nodos posteriores (webhook, function, condition).

BYO modelo

STT: Deepgram Nova-2/Nova-3, ElevenLabs Scribe v2 Realtime, Whisper.
LLM: cualquier OpenAI-compatible. Probados: OpenAI, Groq (~120 ms TTFT), Cerebras, Together.
TTS: ElevenLabs v2/v3 (audio tags soportados — [laughs], [sighs]), OpenAI TTS.

Tus API keys se cifran en BD AES-256-GCM. No tocamos tu coste de tokens — pagas a tu proveedor directamente.

Salvaguardas

max_turns — corte tras N intercambios (evita loops).
max_duration_sec — corte por timeout.
Routing automático a humano — el LLM puede pedir transfer cuando detecta frustración o tema fuera de scope.
Conversación persistida — turns, variables, métricas (tokens, ms por etapa) guardados para auditoría.

Visualización post-llamada

Cada conversación IA queda en AIAgentsPage → Conversaciones con el transcript completo, las variables capturadas, exit_reason y métricas por etapa. Ideal para coaching del prompt y A/B testing de variantes.

Agentes IA conversacionales en tu IVR