Ученые из исследовательской лаборатории искусственного интеллекта (ИИ) T-Bank AI Research и института AIRI представили общедоступный набор данных для контекстного обучения с подкреплением — XLand-100B. Оно поможет ученым быстрее и дешевле проводить исследования, не полагаясь на узкоспециализированных специалистов, а также проводить эксперименты на синтетических данных для анализа новых подходов. обучение ИИ. Об этом CNews сообщили представители Т-Банка.

Набор данных включает 100 миллиардов примеров действий агентов ИИ при выполнении 30 000 задач. Создание такого набора данных потребовало в общей сложности около 50 000 часов графического процессора. Такой Вычислительная мощность недоступен для большинства университетских исследовательских лабораторий.

Контекстное обучение с подкреплением

Контекстное обучение с подкреплением (In-Context RL) — одно из наиболее перспективных направлений. машинное обучение. В этом случае ИИ взаимодействует с окружающей средой, учитывает ее контекст при принятии решений и имеет больше возможностей адаптироваться к новой среде, то есть он больше не может решать никаких задач. In-Context RL можно использовать для обучения ИИ в любой сфере: от игровой индустрии до здоровье имеет робототехника и промышленность.

Модели в In-Context RL обучаются на наборах данных и демонстрируют правильное решение конкретных задач. Они изучают принципы поиска решения и способны перенести их на неизвестные ранее задачи.

Существующие наборы данных имеют ограниченное контекстное исследование RL из-за их простоты, структуры или небольшого количества задач. Кроме того, они часто закрываются для общего пользования, особенно наиболее подходящие. Все это снижает потенциал ученых, работающих над разработками. искусственный интеллект.

Набор данных Xland-100B

XLand-100B основан на предыдущей работе ученых T-Bank AI Research и Институт АИРИ, где исследователи добились высокой эффективности и скорости работы со средой XLand-Minigrid. Там агент изначально предварительно обучается выполнению 65 000 задач под наблюдением человека, чтобы довести его до приемлемого уровня качества и возможностей. Затем агенты также обучаются выполнению 30 000 дополнительных задач без указания задачи.

ЧИТАТЬ   Ассортимент электромобилей стремительно развивается, но мест для зарядки по-прежнему не хватает.

Весь процесс обучения записывается. Впоследствии запись преобразуется в набор данных. Созданный набор данных фиксирует все состояния среды, в которой находился агент во время обучения, все его действия и вознаграждения. История обучения позволяет непрерывно обучать модели In-Context RL в необходимом формате.

Source

От admin