Исследователи обучили ИИ-модель с нуля всего за $1500
Исследователи из Sapient Intelligence заявили, что смогли обучить языковую модель с нуля за небольшую сумму. Обычно создание базовых моделей требует миллионов долларов, огромных массивов данных и инфраструктуры, доступной в основном крупным ИИ-лабораториям.
Исследователи из Sapient Intelligence заявили, что смогли обучить языковую модель с нуля за небольшую сумму. Обычно создание базовых моделей требует миллионов долларов, огромных массивов данных и инфраструктуры, доступной в основном крупным ИИ-лабораториям.
В модели HRM-Text используется не обычная Transformer-архитектура, а иерархическая рекуррентная модель. Она разделяет процесс рассуждения на два уровня: более «медленный» отвечает за общий смысл и стратегию решения, а более «быстрый» — за уточнение деталей и выполнение отдельных шагов.
В отличие от обычных LLM, которые обучаются предсказывать следующий токен на огромных массивах интернет-текста, HRM-Text обучали только на парах «инструкция — ответ». Исследователи считают, что такой подход ближе к тому, как модели используют в бизнесе: пользователь задает конкретную задачу и ожидает полезный ответ.
Исследователи Sapient обучили модель на 1 миллиарде параметров менее чем за два дня на кластере из 16 GPU. Для обучения использовалось около 40 миллиардов токенов — значительно меньше, чем у многих современных языковых моделей.
По данным авторов, HRM-Text показала конкурентные результаты на ряде бенчмарков. Модель набрала 60,7% на MMLU, 84,5% на GSM8K и 56,2% на MATH, что сопоставимо с некоторыми open source-моделями на 2–7 миллиарда параметров.
Главный вывод исследования: базовые модели не обязательно должна запоминать весь интернет, чтобы быть полезными для рассуждений. В Sapient считают, что компаниям может быть выгоднее обучать компактные модели под собственные задачи, а фактические знания получать из внешних баз данных и retrieval-систем.
Генеральный директор Sapient Intelligence Гуань Ван считает, что для бизнеса проблема не только в стоимости обучения, но и в скорости экспериментов. «Когда обучение способной рассуждающей модели стоит около $1500, ИИ перестает быть только вопросом инфраструктуры и становится вопросом стратегии», — заявил он.
Такой подход может быть особенно интересен банкам, страховым компаниям, хедж-фондам и другим организациям с чувствительными внутренними данными. Вместо отправки этих данных во внешние модели они могут обучать компактные модели в контролируемой среде.
Однако Sapient признает, что HRM-Text пока не является полноценной заменой популярных ИИ-систем. Это скорее демонстрация того, что альтернативная архитектура может резко снизить стоимость обучения моделей для задач, требующих рассуждения.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.