Qué es speech analytics y por qué dejó de ser un lujo
Speech analytics es el conjunto de tecnologías que convierten una conversación hablada en datos estructurados que el negocio puede usar: transcripción literal, sentimiento del cliente, cumplimiento de protocolos, intención, próximos pasos sugeridos y alertas en tiempo real.
Hace cinco años era una compra de empresa enterprise: licencias de seis cifras, integraciones de meses, y proyectos que terminaban evaluando el 5% de las llamadas. Hoy la combinación de ASR moderno (Whisper, Deepgram, Azure Speech) más LLMs bajó el costo unitario por debajo de 1 centavo de dólar por minuto procesado. Eso cambia la matemática: ya no se elige qué llamadas auditar — se auditan todas.
El cambio más importante no es técnico, es operativo. Pasar del 2% al 100% de cobertura significa que el supervisor deja de revisar muestras y empieza a revisar excepciones: solo las llamadas que fallaron un script, escalaron en frustración o cerraron mal. Eso libera la mayoría del tiempo de QA para coaching real.
Cómo funciona: ASR + NLU + LLM en pipeline
Una plataforma de speech analytics moderna corre tres etapas. Primero, el ASR (Automatic Speech Recognition) convierte el audio en texto, idealmente con diarización (separar quién dijo qué) y timestamps por palabra. Modelos como Whisper-large-v3 o Deepgram Nova-3 alcanzan precisión arriba del 92% en español neutro y 88-90% en variantes regionales (chileno, rioplatense, mexicano norte).
Segundo, el NLU clasifica la transcripción: detecta intención (queja, consulta, baja), entidades (números de cuenta, productos, montos) y sentimiento por turno. Esto se hace con modelos especializados o, cada vez más, dejando que el LLM lo haga con prompts estructurados que devuelven JSON.
Tercero, el LLM genera el output útil para el negocio: un resumen ejecutivo de la llamada, un scorecard contra el script, alertas si se cumplió o no la apertura regulada, y la próxima mejor acción. Acá es donde un sistema bien construido se diferencia: el prompt es el verdadero producto, no el modelo.
- ASR (transcripción): Whisper, Deepgram, Azure Speech, Google STT.
- NLU (clasificación): modelos especializados o LLM con structured output.
- LLM (insights): resumen, scoring, alertas, próxima acción sugerida.
- Storage: el audio se guarda cifrado; el texto se indexa para búsqueda semántica.
Casos de uso por industria
En cobranzas, speech analytics detecta promesas de pago verbales y las transforma en compromisos rastreables, mide la presión y el cumplimiento normativo (en LatAm, leyes de protección al deudor que prohíben acoso o llamadas fuera de horario), y alerta cuando un agente cruza la línea.
En ventas inbound y outbound, mide qué scripts cierran más, qué objeciones aparecen más y cuáles convierten mejor cuando el agente las maneja con cierto patrón. El resultado típico es un "cuaderno del campeón": el patrón verbal del top 10% de agentes documentado, listo para entrenar al resto.
En soporte técnico, detecta los reincidentes (mismo cliente, mismo problema, tercera llamada) y dispara escalamiento automático antes de que el cliente pida hablar con el supervisor. También mide la diferencia entre tiempo de conversación y tiempo de resolución, que es el KPI real, no el AHT.
En servicio postventa de concesionarios, valida que el asesor explicó el presupuesto, grabó la aprobación verbal del cliente para el trabajo adicional, y respetó el guion regulatorio del país. Combinado con WhatsApp para confirmaciones escritas, se reduce drásticamente el riesgo de disputa.
Los KPIs que speech analytics realmente mueve
El KPI más obvio es la cobertura de QA: del 2-5% típico al 100%. Pero ese no es el que paga el proyecto.
El que paga es la reducción de FCR fail (First Call Resolution fallido). Identificar las 50 razones más comunes por las que una llamada se vuelve a abrir, y dárselas al equipo de operaciones para que ataque las 5 más caras, mueve este KPI entre 8 y 15 puntos en seis meses.
El segundo es el cumplimiento. En cobranzas, una sola llamada que cruza la línea y termina en demanda cuesta más que un año entero de licencias de speech analytics. La detección automática del lenguaje prohibido y la alerta al supervisor es seguro barato.
El tercero es el tiempo de coaching. Un supervisor que pasaba 8 horas semanales escuchando llamadas para encontrar las 5 que valía la pena revisar con el agente, ahora recibe esas 5 ya identificadas, con timestamp y razón. El coaching se vuelve quirúrgico.
Integración con tu stack telefónico y CRM
Las plataformas de telefonía modernas (Genesys, Five9, Talkdesk, NICE CXone, Zendesk Talk, Twilio Voice, Aircall) exponen webhooks de finalización de llamada con la grabación. Una integración bien hecha consume ese webhook, dispara el pipeline ASR + NLU + LLM y devuelve el resultado al CRM en menos de 60 segundos.
En el CRM (Salesforce, HubSpot, Zoho, Bitrix24, sistemas propietarios de concesionarios) lo que llega es el resumen, el sentimiento, el cumplimiento del script y los próximos pasos como tareas. El audio sigue donde estaba; el valor está en el dato estructurado adjunto a la cuenta del cliente.
Para empresas que ya graban en su PBX local (Asterisk, FreePBX, 3CX) la integración es igual: un cron que lee la carpeta de grabaciones, las procesa y las publica al CRM. No hay que cambiar la telefonía para empezar.