SberDevices, техническое подразделение Сбера, создало нейросеть для распознавания человеческой речи и эмоций. По словам разработчиков, он делает на 20-35% меньше ошибок в словах по сравнению с аналогичным ИИ. И предназначен он прежде всего для развития научных исследований в области обработки речи.

Новая акустическая модель искусственного интеллекта

Техническое подразделение Сбербанка SberDevices создало новое семейство акустических моделей для русского языка, позволяющих эффективно распознавать речь и проявления эмоций в ней. Семейство акустических моделей — совокупность методов и алгоритмов, предназначенных для анализа акустических характеристик речевых сигналов с помощью нейронные сети. Они помогают извлекать из аудиоинформации, содержащейся в речи, признаки, необходимые для распознавания и классификации речевых данных.

Важно отметить, что все модели этого семейства имеют открытый исходный код (Открытый источник), что позволяет другим разработчикам использовать их, улучшать и адаптировать под свои нужды. Разработчики решения подчеркнули, что компоненты этого семейства превосходят аналоги по эффективности и точности распознавания. Новая модель также будет способствовать развитию научных исследований в области обработки речи.

Модель получила название GigaAM (Giga Acoustic Model). Она обучалась различным русским речам. По словам разработчиков, GigaAM отлично справляется с различными аудиозадачами, включая распознавание речи и эмоций, обнаружение говорящего и многое другое.

Бизнес-версии этих моделей доступны на платформе синтеза и распознавания речи SaluteSpeech API, а частные лица также могут использовать их в приложении. Приложение SaluteSpeech. Все модели находятся в открытом доступе по некоммерческой лицензии и могут быть использованы для подготовки диссертаций и научных статей.

Что входит в семью

В семье акустические модели С СберУстройства включает в себя: GigaAM — модель Audio Foundation, предварительно обученную различным русским речам. По словам разработчиков, он идеально подходит для адаптации к различным аудиозадачам, в том числе распознавание речи и эмоции, идентификация говорящего и другие.

Компания «СберДевицес» создала новое семейство акустических моделей для русский языккоторые позволяют правильно распознавать речь и эмоции

ГигаАМ-КТС — открытая модель распознавания запросов на русском языке. Как показала оценка качества семи срезов данных (из запросов в умные колонки к записям Телефон канал), модель допускает на 20-35% меньше ошибок в словах в коротких запросах по сравнению с такими популярными решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3, утверждают разработчики. Эти две модели представляют собой высокотехнологичные решения, широко используемые в области обработки речи.

ЧИТАТЬ   Антиамериканское нападение на протестующих в Калифорнийском университете в Лос-Анджелесе пересекает четкую линию

GigaAM-Emo — акустическая модель для обнаружения эмоций. Она продемонстрировала лучший результат на самом большом наборе данных Души среди известных моделей. GigaAM-Emo сравнивали со следующими моделями: базовая версия DUSHA (MobileNetV2 + Self-Attention) и с TIM-Net.

Где его можно использовать

В первую очередь семейство моделей GigaAM предназначено для развития научных исследований в области обработки речи.

GigaAM также можно эффективно использовать в полевых условиях. обслуживание клиентов. Например, автоматическое распознавание голоса может быть интегрировано в систему обработки звонков и чатов клиентов, чтобы автоматически классифицировать запросы клиентов, быстро находить необходимую информацию и определять настроение клиента посредством анализа эмоций, содержащихся в речи. Это улучшит качество обслуживания клиентов и повысит их удовлетворение.

В сфере маркетинга и рекламы технологии GigaAM также могут быть полезны. Например, анализ эмоций в речи потенциальных потребителей позволит бизнесу лучше понимать их потребности, предпочтения и настроения, что поможет создавать более эффективные решения. маркетинг стратегии и рекламные кампании.

В сфере образования и обучения технологии распознавания Речи GigaAM можно использовать для автоматической оценки произношения, интонации и эмоциональной окраски речи учащегося или студента. Это поможет повысить эффективность обучения и развитие коммуникативных навыков.

В целом, использование технологий GigaAM в бизнесе может улучшить качество обслуживания клиентов, повысить эффективность маркетинговых и рекламных кампаний и улучшить процессы обучения и обучения внутри организации.

Антон Мушинский

Source

От admin