Escriba para buscar

Cómo los avances en IA están dando forma al mercado de la inteligencia conversacional Innovación

Cómo los avances en IA están dando forma al mercado de la inteligencia conversacional

"sin título"

Las herramientas de inteligencia conversacional y la tecnología de inteligencia artificial siempre han estado estrechamente entrelazadas. El principal desafío de la inteligencia conversacional es extraer información significativa de grandes cantidades de datos de conversación no estructurados, y la tecnología de inteligencia artificial ha sido durante mucho tiempo la forma más efectiva de hacerlo. Debido a esto, los avances en las capacidades de la IA generan nuevas oportunidades en el espacio de la inteligencia conversacional.

Especialmente en los últimos años, ha habido un aumento extraordinario en la capacidad y precisión de los sistemas de IA para analizar datos de voz, video y texto. Específicamente en lo que respecta a la inteligencia conversacional, hay avances en tres grandes áreas que han creado nuevas posibilidades.

1. Reconocimiento de voz automatizado.

2. Comprensión y transformación de textos no estructurados.

3. Análisis emocional del vídeo.

El reconocimiento de voz automatizado (ASR) se refiere a la tecnología utilizada para transcribir el lenguaje hablado en texto. ASR se basa en algoritmos que analizan las características acústicas del habla, como el tono, el tempo y el contenido fonético, para convertirlo en un formato digital que pueda ser procesado por máquinas.

ASR es una parte fundamental de las herramientas de inteligencia conversacional, ya que la mayoría de los modelos de procesamiento de lenguaje natural (NLP) utilizados en estas herramientas están capacitados para trabajar en texto sin formato, y muy pocos pueden trabajar directamente con datos de audio sin procesar. Esto significa que para casi todas las herramientas, el audio sin procesar que se ingresa debe "traducirse" a texto comprensible para la máquina a través de ASR.

La precisión de los sistemas ASR ha mejorado significativamente en los últimos años, haciéndolos mucho más confiables. Esto fortalece una amplia gama de herramientas de inteligencia conversacional porque uno de los mayores desafíos al aplicar NLP a conversaciones de audio es obtener datos de origen precisos para trabajar con audio sin procesar. La transcripción precisa del lenguaje hablado puede ser difícil debido a las variaciones en los acentos, dialectos y estilos de habla.

Estos errores pueden hacer que las tareas de NLP fallen o produzcan resultados incorrectos. Por ejemplo, si el nombre "John" se transcribe incorrectamente como la palabra "unirse", un sistema de PNL respondería incorrectamente a una pregunta como "¿A qué personas mencionamos en esta conversación?"

Sin embargo, los avances recientes en los algoritmos de aprendizaje automático y las tecnologías de reconocimiento de voz han llevado a mejoras significativas en la calidad de la transcripción, lo que hace posible que las máquinas transcriban e interpreten con precisión el habla humana en tiempo real. La tasa de errores de palabras de los proveedores de transcripción ha disminuido hasta un 6 % en los últimos dos años, y los mejores modelos nuevos, como Whisper de OpenAI, pueden lograr tasas de errores de palabras de menos del 10 %.

Al aprovechar estas mejoras en la calidad de la transcripción, las herramientas de inteligencia conversacional pueden comprender y analizar con mayor precisión las conversaciones humanas, proporcionar recomendaciones más relevantes y personalizadas y brindar una experiencia de usuario más fluida e intuitiva.

Junto con las mejoras en los datos sin procesar de ASR de próxima generación, los avances en inteligencia artificial también nos han permitido comprender los datos sin procesar a un nivel mucho más profundo y realizar análisis y transformaciones de datos sin procesar mucho más avanzados.

Empresas como OpenAI, con su lanzamiento de GPT-3 y ahora GPT-4, así como empresas de ASR como AssemblyAI, Deepgram y Rev, han creado muchas vías nuevas para extraer información importante de texto no estructurado. Algunos de estos tipos de análisis son:

Los algoritmos de IA pueden identificar el sentimiento general de los datos de texto, ya sea positivo, negativo o neutral. Esto permite a las empresas medir la opinión de los clientes sobre sus productos y servicios y ajustar sus estrategias en consecuencia.

Modelado de temas

La IA puede identificar los temas y temas principales en un documento o conjunto de documentos. Esta capacidad es útil para identificar tendencias y patrones en grandes volúmenes de datos de texto.

Reconocimiento de entidad nombrada

La IA puede "identificar y extraer entidades nombradas, como personas, organizaciones y ubicaciones" a partir de datos de texto. Esta capacidad es útil para categorizar y organizar datos de texto.

Resumen de texto

AI puede extraer los puntos clave de grandes cantidades de datos de texto de forma libre.

Respuesta a preguntas

AI puede responder preguntas planteadas en lenguaje natural extrayendo información relevante de datos de texto. Esta capacidad es útil para chatbots y asistentes virtuales.

En general, estas nuevas capacidades de IA hacen posible que las herramientas de inteligencia conversacional brinden valor de formas completamente nuevas. Por ejemplo, empresas como Supernormal, un cliente de Recall.ai y Otter.ai, ya han implementado resúmenes de texto GPT-3 para extraer los puntos clave de reuniones y videoconferencias.

Impacto de la IA en el mercado de la inteligencia conversacional

Si bien los dos avances que discutimos anteriormente estaban relacionados con el texto, los avances en la IA relacionados con el procesamiento de video también han tenido un gran impacto en el mercado de la inteligencia conversacional. Con el auge del trabajo remoto y el rápido aumento de la popularidad de las videoconferencias, los datos de video e imagen también se han convertido en una parte cada vez más importante de la inteligencia conversacional.

Esto se debe a que proporciona una rica información visual que puede mejorar la comprensión y la interpretación del lenguaje hablado. Además de los datos de audio, los datos de video pueden capturar señales no verbales importantes, como expresiones faciales, lenguaje corporal y gestos, que pueden transmitir un significado y un contexto adicionales que pueden no transmitirse solo a través del lenguaje hablado.

Desde 2020, los investigadores han desarrollado redes neuronales especializadas para el análisis emocional de videos e imágenes, como WSCNet, que funcionan significativamente mejor en el análisis emocional. WSCNet logró una precisión del 70,07 % en el conjunto de datos FI a gran escala en comparación con el modelo VGG-16 de última generación anterior, que logró una precisión del 63,75 %.

Con mayor precisión, esta clase de análisis se ha vuelto mucho más útil para las empresas de inteligencia conversacional. Al incorporar datos de video en herramientas de inteligencia conversacional, estas herramientas pueden proporcionar un análisis más preciso de las conversaciones. Las principales empresas en el espacio de la experiencia del cliente, como Voxpopme, cliente de Recall.ai, están incorporando análisis de sentimientos visuales en sus productos, lo que destaca la creciente importancia de este tipo de datos.

Conclusión

Los avances en inteligencia artificial son uno de los impulsores clave detrás de la evolución del software de inteligencia conversacional. Debido a que la IA es clave para extraer información significativa de grandes cantidades de texto, audio o video no estructurado, las mejoras en la precisión, el rendimiento o la capacidad se traducen directamente en herramientas de inteligencia conversacional que se vuelven más útiles y valiosas. Los avances simultáneos en el reconocimiento de voz automatizado, la comprensión de texto no estructurado y el análisis emocional de video en los últimos años han impulsado un rápido aumento en las capacidades de muchos productos de inteligencia conversacional.