Два автора бестселлеров подали иск против OpenAI в федеральный суд Сан-Франциско в среду, заявив в предложенном коллективном иске, что компания использовала защищенную авторским правом интеллектуальную собственность для «обучения» своего интеллектуального чат-бота.

Авторы Мона Авад и Пол Тремблей утверждают, что ChatGPT был частично сформирован путем «проглатывания» их романов без их согласия. Генеративный ИИ основан на двух частях программного обеспечения, известных как Big Language Models, которые отказываются от традиционного метода программирования и вместо этого извлекают огромные объемы текста, чтобы производить естественные, реалистичные ответы на компьютерные подсказки пользователя.

По запросу ChatGPT выпустил чрезвычайно подробные резюме «La Cabane du bout du monde» и «Bunny» Тремблея и «13 способов взглянуть на толстую девушку» Авада. Оба автора утверждают, что это доказательство того, что их романы использовались для обучения чат-бота, и запись включает ответы ChatGPT на запросы относительно их романов.

Согласно иску, большая часть материалов, которые OpenAI использует для обучения своих генеративных чат-ботов, исходит из произведений, защищенных авторским правом, включая книги, написанные Авадом и Тремблеем, «которые были скопированы OpenAI без согласия, без указания авторства и без компенсации».

В иске утверждается, что для обучения больших языковых моделей использовались различные материалы, но книги были «ключевым компонентом в обучении наборов данных для больших языковых моделей, потому что книги представляют собой лучшие примеры высококачественного длинного письма».

В июне 2018 года OpenAI сообщила, что обучила GPT-1 с помощью BookCorpus, который в иске описывается как «спорный набор данных», собранный исследователями искусственного интеллекта в 2015 году, с коллекцией «более 7000 уникальных неопубликованных книг из разных жанров, включая приключения». , фантастика и романтика.

«Они скопировали книги с веб-сайта Smashwords.com, на котором размещены неопубликованные романы, находящиеся в свободном доступе для читателей. Однако эти романы в значительной степени защищены авторским правом.

ЧИТАТЬ   «Аталанта» с крупным счетом обыграла «Байер» и стала победителем Лиги Европы благодаря хет-трику Лукмана.

Согласно жалобе, более поздние версии основных языковых моделей компании обучались с использованием гораздо большего количества книг, защищенных авторским правом. В документе от июля 2020 года, посвященном GPT-3, компания сообщила, что 15% набора обучающих данных поступило из «двух корпусов книг в Интернете», которые OpenAI просто назвал «Книги1» и «Книги2».

В иске приблизительно указано, что, исходя из цифр, указанных в статье OpenAI GPT-3, Книга 1 будет содержать около 63 000 наименований, а Книга 2 будет включать примерно 294 000 наименований.

«Поскольку языковые модели OpenAI не могут функционировать без выразительной информации, извлеченной из произведений заказчиков (и других лиц) и сохраненной внутри, сами языковые модели OpenAI нарушают производные работы, созданные без разрешения истцов и в нарушение их исключительных прав в соответствии с Закон об авторском праве», — говорится в иске.

Также в среду Кларксон, юридическая фирма, занимающаяся общественными интересами, подала более широкий коллективный иск от имени дюжины анонимных клиентов, обвинив OpenAI в краже частной, иногда идентифицирующей, информации от интернет-пользователей «без их информированного согласия или их ведома». ” согласно статья в Rolling Stone. Эксперты предсказывают, что обязательно последуют новые судебные процессы, поскольку ИИ становится все более искусным в использовании информации из Интернета для создания нового контента.

Source

От admin