Опыт исследователя информационной безопасности выявил критическую уязвимость в процессе разработки программного обеспечения: способность генеративного искусственного интеллекта (ИИ) внедрять поддельные пакеты в реальный код. Крупнейшие компании Alibaba, Tencent и Baidu включили несуществующий пакет в свою документацию.

Несуществующая библиотека

Бар Ланьядо (Бар Ланьядо) из компании по кибербезопасности Lasso Security создал несуществующую библиотеку (пакет) для Python под названиемhuggingface-cli. Библиотеки — это набор готовых функций, классов и объектов для решения задач разработчика. Он заметил, что модели генеративного искусственного интеллекта (ИИ) неоднократно «галлюцинируют» (термин исследователя) это название библиотеки при опросе пользователей, т. е. рекомендуя их. Чтобы проверить, как это будет реализовано в реальном мире, Ланьядо разместил поддельный пакет в Индексе пакетов Python (PyPI).

Alibaba включила в свою документацию несуществующий пакет. В инструкциях GraphTranslator от Alibaba неправильно указан pip installhuggingface-cli как метод установки законного инструмента Hugging Face. К счастью, творение Ланьядо оказалось безвредным, однако потенциальные последствия его использования не радуют специалистов по информационной безопасности (ИБ).

По словам Ланьядо, злоумышленник может использовать сгенерированное ИИ имя для вредоносного пакета, загруженного в репозиторий, в надежде, что другие смогут загрузить вредоносное ПО.

29_11_23_ii_700.jpg

ИИ советует разработчикам скачивать поддельные пакеты

В результате за три месяца доступности Huggingface-cli было скачано более 15 000 раз. Кроме того, исследователь выполнил поиск на GitHub, чтобы определить, использовался ли пакет в репозиториях других компаний. Результаты показали, что несколько крупных компаний используют или рекомендуют этот пакет в своих репозиториях. Например, инструкции по установке этого пакета можно найти в README репозитория исследований Alibaba. По состоянию на начало апреля 2024 года эта техника не использовалась в реальных атаках на предприятия.

ЧИТАТЬ   В России создадут единую структуру для регулирования всех дронов: летающих, автомобильных и морских

Новая угроза для разработчиков

Этот случай продемонстрировал новую возможность пиратства для хакеров. ИИ может рекомендовать программистам несуществующие пакеты, созданные злоумышленниками и замаскированные под необходимые инструменты разработки. Таким образом, вредоносное ПО может проникнуть на устройства тысяч разработчиков.

Идея состоит в том, что недобросовестный человек может обратиться к моделям за советом по кодированию, а затем написать готовые пакеты, которые системы искусственного интеллекта неоднократно рекомендуют. Затем внедрите эти зависимости, чтобы другие программисты, использующие те же шаблоны и получающие те же предложения, в конечном итоге использовали эти библиотеки, которые могут быть отравлены вредоносным ПО. Хакеры могут загружать вредоносные пакеты с одинаковыми именами в соответствующие реестры и в дальнейшем им остается только ждать, пока люди скачают эти пакеты.

«Галлюцинации» могут иметь самые разные причины, например, обучение систем искусственного интеллекта на неточных или недостаточных данных. Также могут быть недостатки в алгоритмах, из-за которых ИИ неправильно обобщает данные и учитывает ложную информацию. IT-разработчикам следует помнить, что возможны галлюцинации и важные данные, полученные от ИИ, следует перепроверять.

Цель эксперимента

Готовность моделей ИИ уверенно цитировать несуществующие судебные дела сейчас хорошо известна и вызывает значительное замешательство среди юристов, не подозревающих об этой тенденции. И оказывается, что генеративные модели ИИ будут делать то же самое с программными пакетами.

Именно это и решила проверить компания Lasso Security. Вооружившись тысячами практических вопросов, Бар Ланьядо опросил четыре модели искусственного интеллекта (GPT-3.5-Turbo, GPT-4, Gemini Pro, также известный как Bard, и Cohere Command) по проблемам программирования на пяти различных языках программирования (Python, Python, Node.js, Go, .Net и Ruby), каждый со своей собственной системой упаковки.

Оказывается, некоторые имена, полученные этими чат-ботами, хранятся в разных шаблонах. А последовательность – повторение вымышленного имени – является ключом к превращению причуды ИИ в работающую атаку. Злоумышленнику необходимо, чтобы модель ИИ повторяла имена галлюцинированных пакетов в своих ответах пользователям, чтобы вредоносное ПО, созданное под этими именами, было найдено и загружено.

ЧИТАТЬ   Характеристики камеры Vivo S17 Pro: все подробности

Евгений Поликарпов, МегаФон ПроБизнес: О настоящем и будущем Интернета вещей в России

Телеком

Ланьядо случайным образом выбрал 20 вопросов о галлюцинациях с нулевой суммой и задал каждой модели 100 раз. Целью исследования было оценить, насколько часто название умопомрачительной упаковки остается прежним. Результаты его испытаний показали, что имена сохраняются достаточно часто, чтобы быть рабочим вектором атаки, но не всегда, а в некоторых экосистемах упаковки чаще, чем в других.

По словам Ланьядо, в GPT-4 24,2% вопросов привели к галлюцинациям, из которых 19,6% были повторяющимися. Таблица, предоставленная The Register, дает более подробную разбивку ответов GPT-4. В GPT-3.5 22,2% ответов на вопросы были галлюцинаторными, а 13,6% — повторяющимися. Для Близнецов 64,5% вопросов содержали вымышленные имена, из которых 14% были повторяющимися. А у Когера — 29,1% галлюцинаций и 24,2% повторов.

Несмотря на это, экосистемы пакетов Go и .Net предназначены для ограничения злоупотреблений, запрещая злоумышленникам доступ к определенным путям и именам.

ИИ галлюцинации

В сообщении в блоге от 6 июня 2023 года исследователи Vulcan Cyber ​​описали новую технику доставки вредоносных пакетов, которую они назвали «галлюцинацией пакетов искусственного интеллекта». Этот метод связан с тем, что ChatGPT и другие генеративные платформы искусственного интеллекта иногда отвечают на запросы пользователей галлюцинациями в виде источников, ссылок, блогов и статистики.

Большие языковые модели, такие как ChatGPT, могут генерировать такие галлюцинации: URL-адреса, ссылки и даже целые библиотеки кода и функций, которых на самом деле не существует. По мнению исследователей, ChatGPT даже генерирует сомнительные патчи для CVE и может предлагать ссылки на несуществующие библиотеки кода.

Директор по исследованиям информационной безопасности в Tanium Мелисса Бишопинг (Мелисса Бишопинг) объяснила, что компаниям никогда не следует загружать и запускать код, который они не понимают и не проверяли, например, репозитории GitHub с открытым исходным кодом.

ЧИТАТЬ   Серия Realme 12 5G с батареями емкостью 5000 мАч дебютирует в Индии: посмотреть цену

Source

От admin