Бывают ситуации, когда жизненные обстоятельства не позволяют использовать ChatGPT и вам необходимо развернуть LLM локально. Например, бабушка не разрешает. Так что без ИИ можно остаться, но мужчины этого точно не поймут. Есть ли способы решить эту проблему?

Если вы в такой ситуации можете выдохнуть, выход есть. На данный момент существуют следующие варианты:

1. Собственные модели:

А. антропный – на данный момент сравним или лучше ChatGPT 4.0 по некоторым задачам и имеет большое всплывающее окно, позволяющее решать многие проблемы, не прибегая к RAG и другим гибридным методам.

б. Яндекс GPT – хорошо работает на русском языке, поэтому, если ваша бабушка тоже взрослая, она обязательно оценит этот вариант

против. ГигаЧат — модель от Сбербанка, одинаково хорошо работает и на русском языке, см. пункт выше.

2. Открытые модели:

  1. Лама 2 — оригинальная открытая модель известной террористической организации, на основе которой уже накоплено более 100 500 различных моделей, за что мы очень благодарны этой организации (никто до сих пор не понимает, что заставило Марка принять такое решение). Качество не соответствует ChatGPT 4.

  2. ruGPT — ГигаЧат перед тренировкой по лицензии MIT, здесь тоже помог Сбер, спасибо им. Может быть использован

  3. Мистраль — модель, разработанная людьми из Google во Франции. Качество не дотягивает до ChatGPT 4, но в среднем лучше, чем у Llama 2.

  4. Сокол – Модель разработана европейцами на арабские деньги. В целом, Лама 2 слабее и смысл ее использования от меня ускользает.

  5. Грок по — предположительно модель, «по мотивам» самого Илона. Работает пока, примерно на уровне ChatGPT 3.5, но Илон обещает всех растерзать и есть основания ему верить.

ЧИТАТЬ   Футболист «Спартака» Квинси Промес освобожден в Дубае

Оценки модели на данный момент выглядят так (см. здесь):

Наш пользовательский опыт подтверждает, что модели OpenAI и Anthropic превосходят их, а Anthropic даже немного выигрывает.

На сайте

Что делать, если невозможно использовать облачные решения (бабушка боится, что мошенники узнают, где спрятан пенсионный резерв). Есть два варианта:

  1. развернуть локально

Для этого потребуются видеокарты уровня NVidia A100, каждая стоимостью около 16 000 долларов США.

Сколько вам понадобится, зависит от того, что вы собираетесь делать. Обучение модели с нуля может потребовать тысячи часов и, следовательно, большого количества видеокарт (а, следовательно, десятков тысяч и миллионов долларов). Например, Falcon 7B в течение двух недель обучался на 400 самолетах A100. 7Б Карл!

Модель использования (вывод) – зависит от использования и количества пользователей, вошедших в систему одновременно. Допустим, вы хотите создать чат-бота, который будет обслуживать 100 пользователей. Условно говоря, количество графических процессоров, необходимых для размещения модели LLAMA 2 70B для 100 пользователей, зависит от объема памяти графического процессора. Точные требования к памяти зависят от характеристик модели, но NVIDIA A100 с 80 ГБ видеопамяти может обрабатывать несколько копий модели.

При наличии 100 одновременных пользователей следует учитывать, что не всем пользователям потребуется мгновенный ответ одновременно, но система должна быть достаточно надежной, чтобы выдерживать высокие нагрузки.

Предположим, что NVIDIA A100 80 ГБ может с комфортом запускать 2 экземпляра модели. Каждый экземпляр должен быть способен обслуживать нескольких пользователей, в зависимости от структуры чат-бота и способа обработки запросов пользователей.

Допустим, графический процессор может обслуживать до 25 одновременных пользователей (с учетом задержки и обработки). Таким образом, для 100 одновременных пользователей потребуется 4 графических процессора. Стоимость видеокарт составит около $65 000, не считая стоимости серверов, $75-90 тыс плюс стоимость сервера.

  1. развернуть в дата-центре

ЧИТАТЬ   Толстая рэперша Lizzo продемонстрировала фигуру в кружевном белье

Например, возьмите Выбирать. Час работы сервера с описанной выше конфигурацией (4хА100) будет стоить примерно 1200 рублей в час. Неслабый, но имеет смысл, если не использовать его очень активно.

Оба сценария применимы в определенных ситуациях; здесь нужно оценить, чего вы хотите добиться в результате.

Видеокарт нет, но вы держитесь (она же квантование)

Если ваша бабушка утверждает, что денег нет (а резерв вы пока не нашли), можно ли как-то сократить расходы? Да, вы можете использовать квантование. Это метод оптимизации, который позволяет уменьшить объем памяти, необходимый для хранения и запуска модели, а также ускорить ее расчет, обычно с небольшим ухудшением качества. Это достигается за счет уменьшения количества битов, используемых для представления чисел в весах модели. Квантование чаще всего предполагает снижение точности данных с 32-битных чисел с плавающей запятой до 16- или 8-битных целых чисел. Обычно качество существенно не снижается, но нужно смотреть под конкретные задачи. Это может снизить требования к оборудованию в 2-4 раза, но придется экспериментировать.

На самом деле это очень обширная тема и в одной статье сложно описать все нюансы.

Ира, наш специалист в этой области, скоро выпустит онлайн-семинар по этой теме (совершенно бесплатно). Если вы хотите углубиться в эту тему и задать вопрос эксперту, здесь связь для регистрации.

Все мои пожелания!

Source

От admin