Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей на основе изображений, теперь поддерживает русский язык. Российская модель искусственного интеллекта (ИИ) OmniFusion реконструирует рецепт по фотографии и решит пример на доске. При участии разработчиков подразделений Sber AI и SberDevices Сбербанка.

Выпущен код OmniFusion

Институт исследований искусственного интеллекта (AIRI) выпустил версию модели OmniFusion с открытым исходным кодом — OmniFusion 1.1. Технический отчет со статьей-моделью уже занял первое место в разделе ежедневных трендовых статей на HuggingFace. С апреля 2024 года доступен открытый исходный код для тренировок и весов, который можно использовать, в том числе при разработке коммерческих продуктов.

OmniFusion — это усовершенствованная мультимодальная модель искусственного интеллекта, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, таких как изображения и, при необходимости, аудио-, 3D- и видеоконтент.

С середины апреля 2024 года модель распознает и описывает изображения. С его помощью вы сможете объяснить, что изображено на фото, узнать рецепт приготовления блюда по фото ингредиентов, проанализировать план помещения или узнать, как собрать прибор по фото. его личности. номера. Модель также может распознавать текст и решать проблемы.

CNews ранее сообщал о разработке. Например, с помощью ИИ можно решать логические задачи, решать математические примеры, написанные на доске, или распознавать формулы, а также получать их представления в формате LaTeX.

Исходный код российской мультимодальной модели ИИ выложен в открытый доступ

10 апреля 2024 года модель сможет проанализировать медицинский снимок и указать на проблему в нем. Разумеется, чтобы такая модель помогала ставить диагнозы, ее необходимо дополнительно обучить на специализированных датасетах с участием медицинских экспертов. Каждый эксперт является штатным сертифицированным профессором медицины или хирургии с безупречными полномочиями. Если обучение осуществляется с использованием информации из поисковых систем, результат может оказаться пагубным для будущих пользователей модели ИИ.

ЧИТАТЬ   Merlion и РакТек подписали дистрибьюторское соглашение

Архитектура модели основана на технике объединения большой предварительно обученной языковой модели и ее «глаз» — визуальных кодировщиков, позволяющих кодировать информацию с изображения в цифровой вектор, называемую встраиванием. OmniFusion создана научной группой FusionBrain компании AIRI при участии ученых из компаний «Сбер AI» и «SberDevices».

ВОЗДУХ

Научно-исследовательский институт искусственного интеллекта (АЙРИ), ранее — Институт искусственного интеллекта Сбербанка, — автономная российская некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области искусственного интеллекта. Основная цель института — создание универсальных систем искусственного интеллекта для решения реальных задач.

В декабре 2020 года глава Сбербанка Герман Греф объявила об открытии первого в России института искусственного интеллекта. Учебное заведение откроет свои двери в Москве в январе 2021 года. Греф отметил, что экосистемы банка ведут более тысячи исследовательских проектов в области AI и на каждые 15 рублей, вложенных в развитие команд Data Science, дополнительный доход составляет 100 рублей генерируется. С 2022 года более 90 исследователей приняли участие в исследовательских проектах института, работая в сотрудничестве с мировым сообществом разработчиков, академических и промышленных партнеров.

Модели искусственного интеллекта

Модель ИИ — это программа, обученная на наборе данных распознавать определенные закономерности или принимать определенные решения без дальнейшего вмешательства человека. Модели ИИ применяют различные алгоритмы к соответствующим входным данным для достижения задач или результатов, для которых они были запрограммированы. Проще говоря, модель ИИ определяется ее способностью принимать решения или прогнозировать автономно, а не имитировать человеческий интеллект. Одними из первых успешных моделей ИИ были программы для игры в шашки и шахматы 1950-х годов. Модели позволяли программам делать ходы в прямом ответе на действия противника, а не следовать шаблону серии заранее подготовленных движений.

ЧИТАТЬ   Сбербанк объявляет о крупнейшем обновлении программы лояльности

Различные типы моделей ИИ лучше подходят для конкретных задач или областей, для которых их конкретная логика принятия решений наиболее полезна или актуальна. Сложные системы часто используют несколько моделей одновременно, используя методы ансамблевого обучения, такие как объединение, повышение или наложение.

Василий Шпак, замглавы Минпромторга, в интервью CNews: Таких темпов роста наша электронная промышленность еще не видела

независимость от импорта

Поскольку инструменты ИИ в 2024 году станут более сложными и универсальными, их обучение и использование требуют все более сложных объемов данных и вычислительных мощностей. В ответ системы, предназначенные для выполнения конкретных задач в предметной области, уступают место базовым моделям, предварительно обученным на больших неразмеченных наборах данных и способным решать широкий спектр задач. Эти универсальные базовые модели затем могут быть усовершенствованы для решения конкретных задач.

Один из способов дифференцировать модели машинного обучения — это их фундаментальная методология: большинство из них можно классифицировать как генеративные или дискриминационные. Разница в том, как они моделируют данные в данном пространстве.

Глубокое обучение — это набор методов машинного обучения, основанных на обучающих представлениях, а не на специализированных алгоритмах для конкретных задач. Несколько уровней взаимосвязанных узлов постепенно получают данные, извлекают ключевые функции, определяют взаимосвязи и уточняют решения в процессе, называемом прямым распространением. Другой процесс, называемый обратным распространением ошибки, применяет модели, которые вычисляют ошибки и соответствующим образом корректируют веса и смещения системы. Большинство продвинутых приложений искусственного интеллекта, таких как большие языковые модели (LLM), которые используются в современных чат-ботах, используют глубокое обучение. Эти операции требуют значительных вычислительных ресурсов.

Антон Денисенко

Source

От admin