SIVO

AI agents

Agentes IA conversacionales en tu IVR

Pipeline streaming STT→LLM→TTS con barge-in. BYO modelo. Routing por intención. Sin escribir código.

Cómo funciona

Arrastra un nodo AI Agent en el IVR designer y conéctalo donde quieras delegar a IA: triaje inicial, captura de datos estructurados, FAQ inteligente o cualificación de leads. El caller habla, el agente IA responde con voz natural y al final escala al humano si hace falta.

Pipeline streaming

  1. Audio del caller → VAD detecta habla/silencio en cliente.
  2. Audio → STT streaming (Deepgram, ElevenLabs, Whisper).
  3. Transcript → LLM streaming (OpenAI, Groq, Cerebras, Together).
  4. LLM output JSON ({response, action, variables}) → TTS streaming sentence-by-sentence.
  5. TTS audio → reproducción al caller con uuid_audio_fork bidireccional.

Latencia end-to-end medida: ~600 ms hasta primer audio del bot (con Groq + Deepgram). Mejor que humanos respondiendo "hola, espere".

Barge-in con cooldown anti-echo

Si el caller habla durante una respuesta del bot, VAD detecta speech_start, aborta el TTS en curso y cancela la generación LLM. Procesa la nueva utterance sin loop infinito de auto-interrupción (cooldown configurable post-playback).

JSON output del LLM

El LLM responde siempre con JSON estructurado:

{
  "response": "Perfecto, ¿me confirmas tu DNI?",
  "action": "continue",         // continue | transfer | hangup
  "variables": {
    "intent": "consulta-factura",
    "verified_email": "user@acme.com"
  }
}

response se convierte a voz; action decide qué nodo IVR es el siguiente; variables se mergea a la sesión para nodos posteriores (webhook, function, condition).

BYO modelo

  • STT: Deepgram Nova-2/Nova-3, ElevenLabs Scribe v2 Realtime, Whisper.
  • LLM: cualquier OpenAI-compatible. Probados: OpenAI, Groq (~120 ms TTFT), Cerebras, Together.
  • TTS: ElevenLabs v2/v3 (audio tags soportados — [laughs], [sighs]), OpenAI TTS.

Tus API keys se cifran en BD AES-256-GCM. No tocamos tu coste de tokens — pagas a tu proveedor directamente.

Salvaguardas

  • max_turns — corte tras N intercambios (evita loops).
  • max_duration_sec — corte por timeout.
  • Routing automático a humano — el LLM puede pedir transfer cuando detecta frustración o tema fuera de scope.
  • Conversación persistida — turns, variables, métricas (tokens, ms por etapa) guardados para auditoría.

Visualización post-llamada

Cada conversación IA queda en AIAgentsPage → Conversaciones con el transcript completo, las variables capturadas, exit_reason y métricas por etapa. Ideal para coaching del prompt y A/B testing de variantes.

Tu centralita con superpoderes IA, en minutos.

Empieza con 14 días gratis. Sin tarjeta. Sin permanencia.