INTELIGENCIA ARTIFICIAL

El regreso de la voz: LLM y arquitectura híbrida transforman la atención al cliente en 2026

La idea de que preferimos el chat sobre la voz está cambiando. Gracias a la atención al cliente con IA y la integración de los LLM, las empresas están logrando interacciones inmediatas y naturales. Gustavo Capart analiza cómo la voz recupera su trono al resolver en una frase lo que al chat le toma tres mensajes.

Publicado el 13 de may de 2026

Sandra Defelipe Díaz

Periodista especializada en tecnología, en medios digitales, producción de contenidos y liderazgo editorial

La idea de que la población prefiere el chat por encima de la voz para evitar hablar está siendo cuestionada por la realidad operativa de millones de llamadas procesadas mediante Inteligencia Artificial. Históricamente, la supuesta preferencia por el canal escrito ha sido una respuesta racional de las personas usuarias ante sistemas de voz (IVR) diseñados para optimizar costos, con tiempos de espera prolongados y menús ineficientes. No obstante, la integración de modelos de lenguaje de gran escala (LLM) permite hoy una atención inmediata que comprende el lenguaje natural y resuelve solicitudes en el primer contacto, lo que reordena las prioridades del mercado.

La premisa de que el canal escrito es el preferido por elección natural se ha visto matizada por investigaciones recientes que sugieren que esta conducta es, en gran medida, una estrategia de supervivencia ante la fricción. Según el informe ‘50 estadísticas esenciales de CX para 2026‘ de Zoom, el 74 % de los usuarios utilizaría un chatbot si este garantizara una resolución más rápida que una llamada telefónica. Esto confirma que la preferencia por el chat no es necesariamente por el medio en sí, sino por la expectativa de agilidad que los sistemas de voz tradicionales han fallado en entregar.

Por otro lado, estudios de la firma Verint (citados por Zoom en 2025) indican que el 53 % de la población entre los 18 y 45 años prefiere el contacto a través de canales digitales antes que la voz. No obstante, esta tendencia convive con una realidad crítica para las marcas: el 90 % de las personas sigue prefiriendo hablar con un ser humano antes que con una máquina o un contestador automático.

Según Gustavo Capart, CEO y Co-Founder de Inceptia, la supuesta preferencia por el canal escrito ha sido una “respuesta racional a un canal de voz diseñado para optimizar costos antes que experiencia”. Históricamente, los IVR largos y la baja disponibilidad alejaron a la audiencia de la voz, pero la llegada de los modelos de lenguaje de gran escala (LLMs) está reordenando estas prioridades al ofrecer una interfaz que atiende al primer ring y comprende el lenguaje natural.

Para Capart, la voz sigue siendo la interfaz más humana: “Aprendimos a hablar antes que a escribir, y resolvemos en una frase oral lo que requiere tres mensajes de chat”.

Índice de temas

¿En qué casos la voz supera la efectividad de los canales escritos?

Gustavo Capart, CEO y Co-Founder de Inceptia.

Capart explica que existen escenarios donde la voz no es solo una opción, sino la mejor vía. Las urgencias, como reportar un siniestro o bloquear una tarjeta, se resuelven con mayor celeridad hablando. Asimismo, la voz es fundamental para quienes caminan o realizan otras tareas, así como para perfiles con baja alfabetización digital o personas adultas mayores.

Destaca también la escalabilidad en campañas outbound, donde las restricciones de plataformas como WhatsApp limitan el alcance masivo. En contraste, el canal telefónico permite una magnitud distinta: “Hoy tenemos clientes corriendo campañas de venta que llaman a un millón de personas en un solo día. Para ese tipo de operación, la voz no es una preferencia, es la única vía viable”.

¿Cómo transforman los LLM la robustez y naturalidad de la atención?

La diferencia entre el entrenamiento de hace cinco años y el actual es de “dos órdenes de magnitud”. Mientras que antes se requería mapear cada intención manualmente, hoy los LLM permiten que el sistema no se caiga cuando el cliente sale del guion.

El cambio más profundo, según el directivo de Inceptia, es la humanización: “Hace 5 años un bot sonaba a bot; hoy puede modular tono, hacer pausas, reconocer cuándo el cliente está apurado o frustrado y adaptarse”. Esta capacidad de manejar la ambigüedad y los modismos regionales sin reentrenamiento constante ha acortado drásticamente la curva entre las pruebas de concepto y la producción.

¿Cuál es el límite técnico y arquitectónico de la negociación autónoma?

Uno de los hitos actuales es la negociación autónoma, donde los bots cierran acuerdos de pago sin intervención humana. No obstante, el límite real lo marca el riesgo de alucinación de los modelos. “Un LLM puro, librado a su criterio, puede ofrecer una quita que no corresponde, prometer una condición que no existe o inventar un dato”.

Para resolver esto, Inceptia utiliza una arquitectura híbrida donde la IA conversa y persuade, pero un motor determinístico decide qué se puede ofrecer según las reglas de negocio. “Esa arquitectura híbrida es lo que permite escalar la negociación autónoma sin que el cliente se exponga a un riesgo regulatorio o financiero”.

¿Cuándo sigue siendo indispensable la intervención humana?

A pesar de los avances, Capart advierte que la IA no es recomendable cuando “la conversación es el producto, no el medio”. Casos de ventas consultivas de alto valor, contención psicológica o asesoramiento legal complejo requieren un valor humano que la tecnología aún no replica.

Tampoco se sugiere para capturar datos alfanuméricos largos o correos electrónicos, que suelen transcribirse mal incluso entre humanos. En estos casos, la estrategia óptima es complementar la voz con un canal escrito que deje constancia del dato sin ambigüedad.

A pesar del avance tecnológico, existen situaciones donde la mediación humana sigue siendo indispensable. La clave está en dejar de medir el costo por minuto y enfocarse en la resolución de calidad, donde el ahorro real viene de eliminar recontactos y llamadas perdidas.

Prohibida su reproducción total o parcial.

Sandra Defelipe Díaz

Periodista especializada en tecnología, en medios digitales, producción de contenidos y liderazgo editorial

Periodista de la Universidad de la Sabana, productora, formadora y emprendedora digital, con 12 años de experiencia en periodismo tecnológico, en los medios ENTER.CO y, desde su concepción, de Impacto TIC, medio en el cual ha liderado procesos periodísticos y de redes sociales. Mantiene la curiosidad por temas de tecnología, emprendimiento, música, periodismo, marketing digital y deportes, y su segunda profesión es la capoeira. También ha sido estratega digital en proyectos como Hangouts de Periodismo, el programa radial Mujeres en Almanaque, en la emisora comunitaria La Exitosa Radio, e impulsa un emprendimiento familiar y cooperativo de productos orgánicos y campesinos, Huerta Don Iván.

Sígame en