Я ищу..

Как достижения в области искусственного интеллекта формируют рынок разговорной разведки Инновации

Как достижения в области искусственного интеллекта формируют рынок разговорной разведки

"без подписи"

Инструменты разговорного интеллекта и технологии искусственного интеллекта всегда были тесно переплетены. Основной задачей диалогового интеллекта является извлечение значимой информации из больших объемов неструктурированных данных разговоров, и технология ИИ уже давно является наиболее эффективным способом сделать это. Из-за этого прогресс в возможностях ИИ приводит к новым возможностям в области разговорного интеллекта.

Особенно в последние несколько лет возможности и точность систем искусственного интеллекта для анализа голосовых, видео и текстовых данных резко возросли. В частности, что касается разговорного интеллекта, есть достижения в трех основных областях, которые открыли новые возможности.

1. Автоматическое распознавание речи.

2. Понимание и преобразование неструктурированного текста.

3. Эмоциональный анализ видео.

Автоматизированное распознавание речи (ASR) относится к технологии, используемой для преобразования разговорной речи в текст. ASR опирается на алгоритмы, которые анализируют акустические характеристики речи, такие как высота тона, темп и фонетическое содержание, для преобразования ее в цифровой формат, который может обрабатываться машинами.

ASR является важной частью инструментов разговорного интеллекта, поскольку большинство моделей обработки естественного языка (NLP), используемых в этих инструментах, обучены работать с обычным текстом, и очень немногие могут работать напрямую с необработанными аудиоданными. Это означает, что почти для каждого инструмента необработанный звук, который вводится, должен быть «переведен» в машиночитаемый текст с помощью ASR.

За последние годы точность систем ASR значительно улучшилась, что сделало их гораздо более надежными. Это укрепляет широкий спектр инструментов разговорного интеллекта, потому что одной из самых больших проблем при применении НЛП к аудиоразговорам является получение точных исходных данных для работы с необработанным звуком. Точная расшифровка разговорной речи может быть затруднена из-за различий в акцентах, диалектах и стилях речи.

Эти ошибки могут привести к сбою задач NLP или к неверным результатам. Например, если имя «Джон» неправильно транскрибируется как слово «присоединиться», система НЛП неправильно ответит на вопрос вроде «Каких людей мы упомянули в этом разговоре?»

Однако недавние достижения в алгоритмах машинного обучения и технологиях распознавания речи привели к значительному улучшению качества транскрипции, что позволило машинам точно расшифровывать и интерпретировать человеческую речь в режиме реального времени. Уровень ошибок в словах у провайдеров транскрипции за последние два года снизился на 6 %, а лучшие новые модели, такие как Whisper от OpenAI, могут обеспечить уровень ошибок в словах менее 10 %.

Используя эти улучшения качества транскрипции, инструменты разговорной аналитики могут более точно понимать и анализировать человеческие разговоры, предоставлять более актуальные и персонализированные рекомендации и обеспечивать более плавный и интуитивно понятный пользовательский интерфейс.

Наряду с улучшениями в необработанных данных от ASR следующего поколения достижения в области искусственного интеллекта также позволили нам понимать необработанные данные на гораздо более глубоком уровне и выполнять гораздо более продвинутый анализ и преобразование необработанных данных.

Такие компании, как OpenAI, с их выпуском GPT-3, а теперь и GPT-4, а также компании ASR, такие как AssemblyAI, Deepgram и Rev, создали множество новых возможностей для извлечения важной информации из неструктурированного текста. Некоторые из этих типов анализа:

Алгоритмы ИИ могут определять общее настроение текстовых данных, независимо от того, является ли оно положительным, отрицательным или нейтральным. Это позволяет предприятиям оценивать отношение клиентов к своим продуктам и услугам и соответствующим образом корректировать свои стратегии.

Тематическое моделирование

ИИ может определить основные темы и темы в документе или наборе документов. Эта возможность полезна для выявления тенденций и закономерностей в больших объемах текстовых данных.

Распознавание именованных объектов

ИИ может «идентифицировать и извлекать именованные объекты, такие как люди, организации и местоположения», из текстовых данных. Эта возможность полезна для категоризации и организации текстовых данных.

Обобщение текста

ИИ может извлекать ключевые моменты из больших объемов текстовых данных произвольной формы.

Вопрос Ответ

ИИ может отвечать на вопросы, заданные на естественном языке, извлекая соответствующую информацию из текстовых данных. Эта возможность полезна для чат-ботов и виртуальных помощников.

В целом, эти новые возможности искусственного интеллекта позволяют инструментам диалогового анализа приносить пользу совершенно по-новому. Например, такие компании, как Supernormal, клиент Recall.ai и Otter.ai, уже внедрили обобщение текста GPT-3 для извлечения ключевых моментов из встреч и видеоконференций.

Влияние ИИ на рынок разговорной разведки

В то время как два достижения, которые мы ранее обсуждали, были связаны с текстом, достижения в области искусственного интеллекта, связанные с обработкой видео, также оказали большое влияние на рынок диалогового интеллекта. С появлением удаленной работы и быстрым ростом популярности видеоконференций данные видео и изображений также становятся все более важной частью разговорного интеллекта.

Это связано с тем, что он предоставляет богатую визуальную информацию, которая может улучшить понимание и интерпретацию разговорной речи. В дополнение к аудиоданным видеоданные могут фиксировать важные невербальные сигналы, такие как выражение лица, язык тела и жесты, которые могут передавать дополнительный смысл и контекст, которые невозможно передать только посредством разговорной речи.

С 2020 года исследователи разработали специализированные нейронные сети для эмоционального анализа видео и изображений, такие как WSCNet, которые значительно лучше справляются с эмоциональным анализом. WSCNet достигла точности 70,07 % для крупномасштабного набора данных FI по сравнению с предыдущей современной моделью VGG-16, которая достигла точности 63,75 %.

С большей точностью этот класс анализа стал гораздо более полезным для компаний, занимающихся разведкой. Включая видеоданные в инструменты разговорной разведки, эти инструменты могут обеспечить более точный анализ разговоров. Ведущие компании в области клиентского опыта, такие как Voxpopme, клиент Recall.ai, включают визуальный анализ настроений в свои продукты, подчеркивая растущую важность такого рода данных.

Заключение

Достижения в области искусственного интеллекта являются одним из ключевых факторов эволюции программного обеспечения для разговорного интеллекта. Поскольку ИИ является ключом к извлечению значимой информации из больших объемов неструктурированного текста, аудио или видео, повышение точности, производительности или возможностей напрямую приводит к тому, что инструменты разговорного интеллекта становятся более полезными и ценными. Одновременный прогресс в области автоматического распознавания речи, понимания неструктурированного текста и эмоционального анализа видео за последние несколько лет привел к быстрому расширению возможностей многих продуктов разговорного интеллекта.