SberDevices, техническое подразделение Сбера, создало нейросеть для распознавания человеческой речи и эмоций. По словам разработчиков, он делает на 20-35% меньше ошибок в словах по сравнению с аналогичным ИИ. И предназначен он прежде всего для развития научных исследований в области обработки речи.

Новая акустическая модель искусственного интеллекта

Техническое подразделение Сбербанка SberDevices создало новое семейство акустических моделей для русского языка, позволяющих эффективно распознавать речь и проявления эмоций в ней. Семейство акустических моделей — это набор методов и алгоритмов, предназначенных для анализа акустических характеристик речевых сигналов с помощью нейронных сетей. Они помогают извлекать из аудиоинформации, содержащейся в речи, признаки, необходимые для распознавания и классификации речевых данных.

Важно отметить, что все модели этого семейства имеют открытый исходный код (OpenSource), что позволяет другим разработчикам использовать их, улучшать и адаптировать под свои нужды. Разработчики решения подчеркнули, что компоненты этого семейства превосходят аналоги по эффективности и точности распознавания. Новая модель также будет способствовать развитию научных исследований в области обработки речи.

Модель получила название GigaAM (Giga Acoustic Model). Она обучалась различным русским речам. По словам разработчиков, GigaAM отлично справляется с различными аудиозадачами, включая распознавание речи и эмоций, обнаружение говорящего и многое другое.

Профессиональные версии этих моделей доступны на платформе синтеза и распознавания речи SaluteSpeech API, а частные лица также могут использовать их в приложении SaluteSpeech. Все модели находятся в открытом доступе по некоммерческой лицензии и могут быть использованы для подготовки диссертаций и научных статей.

Что входит в семью

Семейство акустических моделей SberDevices включает в себя: GigaAM — модель Audio Foundation, предварительно обученную на различных русских речах. По словам разработчиков, он идеально подходит для адаптации к различным задачам работы со звуком, включая распознавание речи и эмоций, идентификацию говорящего и другие.

SberDevices создала новое семейство акустических моделей для русского языка, которые позволяют правильно распознавать речь и эмоции

GigaAM-CTC — открытая модель распознавания запросов на русском языке. Как показывает оценка качества семи срезов данных (от запросов к умным колонкам до записей телефонного канала), модель обеспечивает на 20-35% меньше ошибок в словах в коротких запросах по сравнению с такими популярными решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3, говорят разработчики. Эти две модели представляют собой высокотехнологичные решения, широко используемые в области обработки речи.

ЧИТАТЬ   Нейросетевая модель Сбербанка прошла итоговую аттестацию на звание «доктор»

GigaAM-Emo — акустическая модель для обнаружения эмоций. Она продемонстрировала лучший результат на самом большом наборе данных Души среди известных моделей. GigaAM-Emo сравнивали со следующими моделями: базовая версия DUSHA (MobileNetV2 + Self-Attention) и с TIM-Net.

Где его можно использовать

В первую очередь семейство моделей GigaAM предназначено для развития научных исследований в области обработки речи.

GigaAM также можно эффективно использовать в сфере обслуживания клиентов. Например, автоматическое распознавание голоса может быть интегрировано в систему обработки звонков и чатов клиентов, чтобы автоматически классифицировать запросы клиентов, быстро находить необходимую информацию и определять настроение клиента посредством анализа эмоций, содержащихся в речи. Это улучшит качество обслуживания клиентов и повысит удовлетворенность клиентов.

Сергей Голицын, Т1: 70% компаний, использующих ИИ, подтверждают положительный эффект

Сканирование

В сфере маркетинга и рекламы технологии GigaAM также могут быть полезны. Например, анализ эмоций в речи потенциальных потребителей позволит бизнесу лучше понимать их потребности, предпочтения и настроения, что поможет создавать более эффективные маркетинговые стратегии и рекламные кампании.

В сфере образования и обучения технологии распознавания речи GigaAM могут использоваться для автоматической оценки произношения, интонации и эмоциональной окраски речи ученика или студента. Это поможет повысить эффективность обучения и развитие коммуникативных навыков.

В целом, использование технологий GigaAM в бизнесе может улучшить качество обслуживания клиентов, повысить эффективность маркетинговых и рекламных кампаний, а также улучшить процессы обучения и обучения в организации.

Антон Мушинский

Source

От admin