Весь мир — модель, а LLM — бэкенд

На любом этапе развития ИИ активно продолжаются философские и другие дискуссии. Сегодня, например, мы обсуждаем, что такое AGI или глобальная модель. Эта последняя концепция появилась, вероятно, несколько десятилетий назад, но Янн Лекун вывел ее на новый уровень.

Как мы можем заставить машины учиться так же эффективно, как люди или животные? Как машины могут изучать представления и планировать действия на нескольких уровнях абстракции? Для этого, по мнению Лекуна, машине нужна та же внутренняя модель мира, что и у животных. Когда в 2022 году это выразил себя относительно его будущего видения ИИ было больше вопросов, чем ответов. С тех пор понятие глобальной модели постепенно получило более широкое распространение, хотя пока не совсем ясно, что под ним подразумевается (совсем недавно Лекун отдал что-то вроде формального определения модели мира — скриншоты ниже) Но тем не менее появляется нечто, называемое моделью мира.

0bfce69cb9ff8df794c3f9a24a19a868

ЗАКОН

Авторы из Калифорнийского университета Сан-Диего и Университета Джонса Хопкинса объединили языковые концепции (лязык), агент (Алюди) и мир (Втмира) модели в едином «законе» — ЗАКОН (статья). Они исходили из того, что LLM, даже добившись огромных успехов и став самым продвинутым примером искусственного интеллекта, легко допускает ошибки в самых простых рассуждениях и планировании.

63d7aaf7e2a760f2a73c3430c1037769

И не похоже, что это можно исправить, снова увеличив размер модели. Это отражает фундаментальное ограничение: естественный язык по своей сути неоднозначен и неточен и, следовательно, неэффективен в качестве инструмента рассуждения во многих ситуациях. Когда человек говорит или пишет, он опускает гигантский пласт важнейшего контекста – от собственного психологического состояния до общего здравого смысла. С другой стороны, LLM генерирует текст только формально, не полагаясь на физический, социальный или умственный опыт. Другими словами, человек опирается на определенную модель мира, какой бы она ни была, и формирует свои представления. На основании этого человек принимает решения – при этом руководствуется «агентной моделью». Авторы предлагают приближенно перенести эту концепцию на искусственный интеллект.

ЧИТАТЬ   Пан Ги Мун призвал мир положить конец геополитическому соперничеству

Поскольку устоявшихся определений в этой области пока нет и каждый использует что-то свое, мы сейчас воспользуемся определениями авторов статьи.

Модель мира — ментальные представления, которые агент использует для понимания и прогнозирования внешнего мира.

Модель агента — включает модель мира и другие важные элементы, включая цели агента, представления о текущем состоянии мира и о других агентах.

0525749911190ee9f9a60099f6c53548

Языковая модель в концепции LAW — это серверная часть. Рассуждения должны строиться не самой LLM (которая не всегда идеальна в этом отношении), а моделями агента и мира. По мнению авторов, они обладают большей степенью абстракции и могут учитывать важные элементы человеческого мышления: убеждения, ожидания последствий, стратегию.

Чтобы узнать больше о физическом мире, одного текста, конечно, недостаточно. Глобальной модели придется учиться на человеческих демонстрациях, человеческих взаимодействиях и, обязательно, на реальном физическом опыте. И тут происходит приятное совпадение, например, когда две группы строителей роют туннель из двух разных входов и наконец встречаются посередине. Для бурного развития робототехники с искусственным интеллектом не хватает ровно того же: реальных физических данных для обучения. В 2021 году OpenAI, не привлекая внимания, приостановила работу команды по робототехнике просто потому, что не было данных, на которых можно было бы обучать роботов (об этом рассказал глава ведомства Войцех Заремба). в подкасте). Google Deepmind сделал что-то другое и создал AutoRT (статья, Блог), в котором собраны тысячи реальных примеров, в которых роботы выполняют различные задачи.

АвтоРТ

AutoRT использует готовые базовые модели: модель видения изучает ситуацию и положение и описывает то, что видит, LLM генерирует задачи, другой LLM выбирает наиболее подходящие и отправляет их на выполнение роботу.

ЧИТАТЬ   Хакерам удалось взломать Tesla Model 3

Авторы запустили парк из 20 роботов (система может работать на произвольном количестве) на семь месяцев в 4 разных зданиях своего кампуса.

Пока сотрудники Google в фоновом режиме продолжали учебу, роботы кружили по офису и сами искали задачи. Еще немного о внутренностях AutoRT: VLM создает свободное описание среды, перечисляет объекты, которые видит робот. Например: «Я вижу пакет чипсов и губку». Языковая модель предлагает несколько задач, например «открыть фишки», «протереть стол» или «положить пакет на стол». Эти поручения передаются в суд другого LLM, который действует в соответствии с конституцией. Он решает, какие задачи робот не может выполнить, какие он может выполнить только с помощью человека, а какие он может выполнить в одиночку. Это необходимо для того, чтобы AutoRT мог безопасно работать в более разнообразной среде с неизвестными объектами.

910a5747c8f328f7e0aa3ffa6df0735f

Вернемся еще раз к самой конституции, по которой выбираются соответствующие задачи. По сути, он заменяет тонкую настройку набором правил. Сами правила делятся на три категории. Во-первых, основные правила почти такие же, как в «Трех законах робототехники» Айзека Азимова:

  1. Робот не может навредить человеку

  2. Робот должен защищать себя, если это не противоречит первому пункту

  3. Робот должен подчиняться командам человека, если это не нарушает первые два пункта.

Во-вторых, правила безопасности, запрещающие действия с живыми существами, острыми предметами и электричеством. В-третьих, физические ограничения – только одна рука и нельзя поднимать ничего тяжелее книги.

Иногда сотрудники мешали роботу выполнить задание (например, складывали обратно в ящик пакетик с чипсами). Итак, за семь месяцев парк роботов собрал 77 000 уникальных задач.

3930082c71b35c7710a838f071124e51

Для сравнения, вот краткий пример другого подхода команды MIT (Блог, статья). Здесь авторы не строят модель мира и ждут синхронизированных данных для обучения роботов. Вместо этого они отдельно обучили LLM, который делит задачу на подзадачи, диффузионную модель, генерирующую визуальное представление подзадач, и модуль, генерирующий фактический порядок. Три модуля связаны итеративной обратной связью.

ЧИТАТЬ   Более 20 ситуаций, весь юмор и боль которых поймут только те, кто снимал жилье

Этот подход также имеет право на существование. В конечном итоге это позволяет добиться результатов теми инструментами, которые у вас уже есть. Теперь будет интересно посмотреть, будет ли обучение на данных, полученных от AutoRT, лучше несинхронизированного обучения отдельных модулей и оправдает ли себя концепция глобальной модели.

Больше наших обзоров статей об искусственном интеллекте на канале Про ИИ.



Source

От admin