Несмотря на все способности, которые мы хотели бы приписать ChatGPT, чат-бот, по сути, обучался дома. Его создатель OpenAI обучил его обширной и ущербной славе общедоступного Интернета — это одна из причин, по которой ChatGPT совершает так много досадных ошибок. Адвокат, который недавно использовал чат-бота для написания своих мемуаров, понял, что допустил ошибку, сославшись на шесть несуществующих дел. Как ChatGPT может стать более точным? Отправьте его в колледж, чтобы обучить его работе с данными более высокого качества.

Это создает заманчивую возможность получения нового потока доходов для издателей и любого другого бизнеса, владеющего ценным и точным текстом, который можно использовать для обучения языковых моделей. Это дорого обойдется OpenAI, но может укрепить господство компании Сэма Альтмана, наряду с Google, Meta Platforms и горсткой других крупных компаний, которые производят так называемые модели начального уровня. Они могли бы стать теми немногими, кто может позволить себе оплачивать высшее образование ИИ.

OpenAI держит в секрете свои обучающие данные для GPT-4. Но для предыдущих выпусков он использовал онлайн-корпус из тысяч самостоятельно изданных книг, многие из которых были ориентированы на романтику и вампирскую фантастику. Ученые обнаружили, что многие популярные книги, которые нашли свое место в сети, такие как серия книг о Гарри Поттере, вероятно, также находятся в GPT-4, что привело к дискуссиям в мире книгоиздателей по этому вопросу. полигон. – готовы ли ИИ-компании платить.

Что может быть лучше учителей для ChatGPT, чем академические книги и журналы с их концентрированным опытом в области бизнеса, медицины, экономики и многого другого?

В течение нескольких месяцев в области ИИ ходили слухи, что большая часть обучающих данных GPT-4 поступала из Reddit. Затем, в прошлом месяце, популярный интернет-форум объявил, что начнет взимать плату с компаний за доступ к своему множеству разговоров. По словам Дэна Конвея, исполнительного директора Ассоциации издателей Великобритании, это заставило некоторых книжных издателей задуматься о том, могут ли они сделать то же самое со своими прошлыми работами. «Это очень оживленная беседа, — говорит он. «Часть разговора, который должен состояться, касается того, как работает лицензирование контента».

ЧИТАТЬ   Хроника: Дональд Трамп направляется в суд. Это должно быть последнее место, где он хочет быть.

Это не просто принятие желаемого за действительное, поскольку OpenAI, возможно, придется начать смотреть за пределы общедоступного Интернета, чтобы обучить следующую итерацию ChatGPT. Онлайн-наборы данных, на которых он обучался, всегда содержали достаточно надежные данные. Но теперь, когда ChatGPT стал публичной сенсацией, эти наборы данных рискуют быть заспамленными нежелательными данными, направленными на искажение результатов чат-бота — почти так же, как SEO-спам искажает результаты Google. OpenAI, возможно, просто нужно посмотреть дальше и начать платить за следующий этап обучения.

Компания не единственный потенциальный покупатель. Другие, которые хотят формировать свои собственные языковые модели, теперь также хотят больше данных. В частности, инвестиционные банки, которые хотят помочь своим клиентам проводить более разумные инвестиционные исследования, создали сложных чат-ботов и обучили их данным от компаний в сфере страхования, грузоперевозок, телекоммуникаций и розничной торговли, по словам Брэда Шнайдера, генерального директора Nomad, онлайн-рынка для данные.

Вряд ли кто-то за пределами крупных технологических компаний, таких как OpenAI и Google, на самом деле создает базовые языковые модели с нуля, но многие компании покупают доступ к этим моделям, таким как GPT-4, а затем настраивают их с помощью данных, специально предназначенных для их собственных целей. (Раскрытие информации: Bloomberg объявил о своей собственной языковой модели для финансов, которая, вероятно, будет конкурировать с OpenAI GPT-4.)

Шнайдер говорит, что три месяца назад вряд ли кто-то покупал данные для обучения языковых моделей таким образом. Сегодня эти сделки составляют около 15% от общего объема на его платформе, а цены варьируются от десятков тысяч до миллионов долларов. Шнайдер добавляет, что компании с уникальными данными, пользующимися повышенным спросом, например данные, которые могут помочь программному обеспечению инструментов ИИ, как правило, находятся в более выгодном положении.

ЧИТАТЬ   Российская Yadro отвыкла от технологий IBM. Компания переходит на открытую архитектуру RISC-V

В некотором смысле все это указывает на процветающий рынок данных. Через год или два мы могли бы увидеть множество страховых компаний, банков и медицинских компаний, покупающих и продающих данные для создания специализированных альтернатив ChatGPT.

Но этот рынок также может двигаться в более темном направлении — доминируют действующие технологические компании. Это будет зависеть от того, будут ли OpenAI и Google создавать языковые модели, которые могут делать что угодно для всех — своего рода швейцарский армейский нож ChatGPT с опытом работы по целому ряду тем. Другими словами, боты общего назначения могут вытеснить нишевых ботов, и если цены на данные станут слишком высокими, это также затруднит создание этих нишевых ботов.

Крупные технологические компании «всегда смогут тратить больше на вычисления». [and data] чем мы», — говорит Кит Пейрис, соучредитель и генеральный директор Tome, инструмента искусственного интеллекта для создания историй. «Есть хороший шанс, что они выиграют за счет капитала, а не обязательно за счет инноваций».

Это была история Big Tech в течение многих лет, и вряд ли она изменится сейчас.

© 2023 Блумберг ЛП


Motorola Edge 40 недавно дебютировал в стране как преемник Edge 30, выпущенного в прошлом году. Стоит ли покупать этот телефон вместо Nothing Phone 1 или Realme Pro+? Мы обсуждаем это и многое другое в Orbital, подкасте Gadgets 360. Orbital доступен по адресу Спотифай, Гаана, ДжиоСаавн, Подкасты Google, подкаст Apple, Амазонская музыка и везде, где вы получаете свои подкасты.

(Эта история не редактировалась сотрудниками NDTV и автоматически генерируется из синдицированного канала.)

Партнерские ссылки могут создаваться автоматически — подробности см. в нашем заявлении об этике.

Source

От admin