Я шукаю..

Як прогрес ШІ формує ринок розмовної інформації Інновації

Як прогрес ШІ формує ринок розмовної інформації

"без субтитрів"

Інструменти розмовного інтелекту та технології штучного інтелекту завжди були тісно переплетені. Основне завдання розмовного інтелекту полягає в тому, щоб отримати значущу інформацію з великої кількості неструктурованих даних розмов, і технологія ШІ вже давно є найефективнішим способом зробити це. Через це прогрес у можливостях штучного інтелекту відкриває нові можливості в розмовному інтелектуальному просторі.

Особливо за останні кілька років відбулося надзвичайне зростання можливостей і точності систем ШІ для аналізу голосових, відео та текстових даних. Зокрема, щодо розмовного інтелекту є досягнення в трьох основних сферах, які створили нові можливості.

1. Автоматизоване розпізнавання мовлення.

2. Розуміння та трансформація неструктурованого тексту.

3. Емоційний аналіз відео.

Автоматизоване розпізнавання мовлення (ASR) відноситься до технології, яка використовується для транскрипції розмовної мови в текст. ASR покладається на алгоритми, які аналізують акустичні характеристики мови, такі як висота, темп і фонетичний вміст, щоб перетворити її в цифровий формат, який може оброблятися машинами.

ASR є важливою частиною інструментів розмовного інтелекту, оскільки більшість моделей обробки природної мови (NLP), які використовуються в цих інструментах, навчені працювати з простим текстом, і лише деякі можуть працювати безпосередньо з необробленими аудіоданими. Це означає, що майже для кожного інструменту необхідний аудіофайл, який вводиться, має бути «перекладений» у машинно-зрозумілий текст через ASR.

За останні роки точність систем ASR значно підвищилася, завдяки чому вони стали набагато надійнішими. Це зміцнює широкий спектр інструментів розмовного інтелекту, тому що одна з найбільших проблем у застосуванні НЛП до аудіорозмов — отримати точні вихідні дані для роботи з необробленого аудіо. Точна транскрипція розмовної мови може бути складною через варіації в акцентах, діалектах і стилях мовлення.

Ці помилки можуть призвести до невдачі завдань НЛП або дати неправильні результати. Наприклад, якщо ім’я «Джон» неправильно транскрибується як слово «приєднатися», система НЛП невірно відповість на запитання на кшталт «Яких людей ми згадали в цій розмові?»

Однак нещодавні досягнення в алгоритмах машинного навчання та технологіях розпізнавання мовлення призвели до значного покращення якості транскрипції, завдяки чому машини можуть точно транскрибувати та інтерпретувати людську мову в режимі реального часу. Рівень помилок слів у постачальників транскрипції знизився до 6% за останні два роки, а найпопулярніші нові моделі, такі як Whisper від OpenAI, можуть досягти рівня помилок слів менше 10%.

Використовуючи ці покращення якості транскрипції, інструменти розмовного інтелекту можуть точніше розуміти й аналізувати людські розмови, надавати більш релевантні та персоналізовані рекомендації та забезпечувати більш зручну та інтуїтивно зрозумілу взаємодію з користувачем.

Поряд із вдосконаленням необроблених даних за допомогою ASR наступного покоління, досягнення в галузі штучного інтелекту також дозволили нам зрозуміти необроблені дані на набагато глибшому рівні та виконувати значно розширеніший аналіз і перетворення необроблених даних.

Такі компанії, як OpenAI, випустивши GPT-3, а тепер і GPT-4, а також компанії ASR, такі як AssemblyAI, Deepgram і Rev, створили багато нових шляхів для вилучення важливої інформації з неструктурованого тексту. Деякі з цих типів аналізу:

Алгоритми штучного інтелекту можуть визначити загальний настрій текстових даних, незалежно від того, є він позитивним, негативним або нейтральним. Це дозволяє підприємствам оцінювати настрої клієнтів щодо їхніх продуктів і послуг і відповідно коригувати свої стратегії.

Моделювання теми

ШІ може визначати основні теми в документі чи наборі документів. Ця можливість корисна для визначення тенденцій і закономірностей у великих обсягах текстових даних.

Розпізнавання іменованих сутностей

ШІ може «визначати та витягувати іменовані сутності, такі як люди, організації та місця розташування» з текстових даних. Ця можливість корисна для категоризації та організації текстових даних.

Конспектування тексту

ШІ може витягти ключові моменти з великої кількості текстових даних довільної форми.

Відповідь на питання

ШІ може відповідати на запитання, поставлені природною мовою, витягуючи відповідну інформацію з текстових даних. Ця можливість корисна для чат-ботів і віртуальних помічників.

Загалом ці нові можливості штучного інтелекту дають змогу розмовним інтелектуальним інструментам забезпечувати цінність абсолютно по-новому. Наприклад, такі компанії, як Supernormal, клієнти Recall.ai та Otter.ai, уже розгорнули текстові підсумки GPT-3, щоб виділити ключові моменти зустрічей і відеоконференцій.

Вплив ШІ на ринок розмовної інформації

Хоча два досягнення, які ми обговорювали раніше, були пов’язані з текстом, прогрес у ШІ, пов’язаний з обробкою відео, також мав великий вплив на ринок розмовної інформації. З розвитком віддаленої роботи та стрімким зростанням популярності відеоконференцій дані відео та зображень також стають все більш важливою частиною розмовного інтелекту.

Це тому, що він надає багату візуальну інформацію, яка може покращити розуміння та інтерпретацію розмовної мови. Окрім аудіоданих, відеодані можуть фіксувати важливі невербальні ознаки, такі як міміка, мова тіла та жести, які можуть передати додаткове значення та контекст, які неможливо передати лише усною мовою.

З 2020 року дослідники розробили спеціалізовані нейронні мережі для емоційного аналізу відео та зображень, такі як WSCNet, які значно краще виконують емоційний аналіз. WSCNet досягла 70,07% точності на великомасштабному наборі даних FI порівняно з попередньою сучасною моделлю VGG-16, яка досягла 63,75% точності.

Завдяки більшій точності цей клас аналізу став набагато кориснішим для розвідувальних компаній. Використовуючи відеодані в інструментах аналізу розмов, ці інструменти можуть забезпечити більш точний аналіз розмов. Провідні компанії у сфері взаємодії з клієнтами, такі як клієнт Recall.ai Voxpopme, включають аналіз візуальних настроїв у свої продукти, підкреслюючи зростаючу важливість такого роду даних.

Висновок

Досягнення в області штучного інтелекту є одним із ключових рушійних сил еволюції програмного забезпечення розмовного інтелекту. Оскільки штучний інтелект є ключовим для отримання значущої інформації з великої кількості неструктурованого тексту, аудіо чи відео, покращення точності, продуктивності чи можливостей безпосередньо перетворюються на інструменти розмовного інтелекту, які стають більш корисними та цінними. Одночасний прогрес у автоматизованому розпізнаванні мовлення, розумінні неструктурованого тексту та емоційному аналізі відео за останні кілька років сприяв швидкому збільшенню можливостей багатьох розмовних розвідувальних продуктів.