Согласно отчету Журнал «Уолл СтритТакие компании, как OpenAI или Google, нуждаются в огромных объемах данных для обучения и улучшения своих моделей больших языков (LLM), но проблема в том, что в Интернете просто недостаточно качественных данных.

as6yz2l22k0uhLaYIQmI81QeteGVY

Авторы статей Wall Street Journal ссылаются на заявления специалиста по искусственному интеллекту Пабло Вильялобоса из Исследовательского института Epoch. По его словам, языковая модель GPT-4 была обучена на 12 триллионах токенов данных, и если следовать законам масштабирования Chinchilla, для следующей версии потребуется около 60–100 триллионов токенов. Однако в открытом доступе отсутствуют как минимум 10–20 триллионов токенов текстовых и графических данных соответствующего качества. Кстати, Вильялобос несколько лет назад заявил, что к середине 2024 года с вероятностью 50% нейросетям уже не хватит данных для дальнейшего обучения. Затем он предсказал, что к 2026 году эта вероятность составит 90%.

Исследование показывает, что большинство данных, доступных в Интернете, просто непригодны для обучения ИИ, поскольку содержат противоречивый текст или не содержат новой информации для нейронных сетей. Проблема усугубляется тем, что крупные платформы, включая СМИ и социальные сети, блокируют доступ к своим данным и не позволяют таким компаниям, как OpenAI, использовать их.

as6yuWQz18z2uB5C68ZVQyJNr2PhrZ

По словам Сэма Альтмана, директора OpenAI, они разрабатывают новые способы обучения нейронных сетей. Как сообщается, компания изучает возможность создания системы расчета стоимости данных для оплаты платформ. Согласно отчету Wall Street Journal, Google рассматривает аналогичный подход. Тем временем OpenAI намерена использовать инструмент распознавания речи Whisper для «извлечения» информации из аудиозаписей и видео, находящихся в свободном доступе в Интернете.

Внутри OpenAI рассматривает другой способ обойти нехватку данных: генерацию высококачественных синтетических данных, которые будут использоваться для дальнейшего обучения нейронных сетей.

ЧИТАТЬ   Глава украинской армии «железный генерал» уволен и заменен командующим сухопутными войсками после того, как Зеленский признал, что война зашла в «тупик»
Добавлен ее Суаре 4 часа 22 минуты назад

Source

От admin