AI agents
Agentes IA conversacionales en tu IVR
Pipeline streaming STT→LLM→TTS con barge-in. BYO modelo. Routing por intención. Sin escribir código.
Cómo funciona
Arrastra un nodo AI Agent en el IVR designer y conéctalo donde quieras delegar a IA: triaje inicial, captura de datos estructurados, FAQ inteligente o cualificación de leads. El caller habla, el agente IA responde con voz natural y al final escala al humano si hace falta.
Pipeline streaming
- Audio del caller → VAD detecta habla/silencio en cliente.
- Audio → STT streaming (Deepgram, ElevenLabs, Whisper).
- Transcript → LLM streaming (OpenAI, Groq, Cerebras, Together).
- LLM output JSON (
{response, action, variables}) → TTS streaming sentence-by-sentence. - TTS audio → reproducción al caller con
uuid_audio_forkbidireccional.
Latencia end-to-end medida: ~600 ms hasta primer audio del bot (con Groq + Deepgram). Mejor que humanos respondiendo "hola, espere".
Barge-in con cooldown anti-echo
Si el caller habla durante una respuesta del bot, VAD detecta speech_start, aborta el TTS en curso y cancela la generación LLM. Procesa la nueva utterance sin loop infinito de auto-interrupción (cooldown configurable post-playback).
JSON output del LLM
El LLM responde siempre con JSON estructurado:
{
"response": "Perfecto, ¿me confirmas tu DNI?",
"action": "continue", // continue | transfer | hangup
"variables": {
"intent": "consulta-factura",
"verified_email": "user@acme.com"
}
} response se convierte a voz; action decide qué nodo IVR
es el siguiente; variables se mergea a la sesión para nodos
posteriores (webhook, function, condition).
BYO modelo
- STT: Deepgram Nova-2/Nova-3, ElevenLabs Scribe v2 Realtime, Whisper.
- LLM: cualquier OpenAI-compatible. Probados: OpenAI, Groq (~120 ms TTFT), Cerebras, Together.
- TTS: ElevenLabs v2/v3 (audio tags soportados —
[laughs],[sighs]), OpenAI TTS.
Tus API keys se cifran en BD AES-256-GCM. No tocamos tu coste de tokens — pagas a tu proveedor directamente.
Salvaguardas
- max_turns — corte tras N intercambios (evita loops).
- max_duration_sec — corte por timeout.
- Routing automático a humano — el LLM puede pedir transfer cuando detecta frustración o tema fuera de scope.
- Conversación persistida — turns, variables, métricas (tokens, ms por etapa) guardados para auditoría.
Visualización post-llamada
Cada conversación IA queda en AIAgentsPage → Conversaciones con el transcript completo, las variables capturadas, exit_reason y métricas por etapa. Ideal para coaching del prompt y A/B testing de variantes.