Support us

Исследователи обучили ИИ-модель с нуля всего за $1500

Исследователи из Sapient Intelligence заявили, что смогли обучить языковую модель с нуля за небольшую сумму. Обычно создание базовых моделей требует миллионов долларов, огромных массивов данных и инфраструктуры, доступной в основном крупным ИИ-лабораториям.

Оставить комментарий
Исследователи обучили ИИ-модель с нуля всего за $1500

Исследователи из Sapient Intelligence заявили, что смогли обучить языковую модель с нуля за небольшую сумму. Обычно создание базовых моделей требует миллионов долларов, огромных массивов данных и инфраструктуры, доступной в основном крупным ИИ-лабораториям.

В модели HRM-Text используется не обычная Transformer-архитектура, а иерархическая рекуррентная модель. Она разделяет процесс рассуждения на два уровня: более «медленный» отвечает за общий смысл и стратегию решения, а более «быстрый» — за уточнение деталей и выполнение отдельных шагов.

В отличие от обычных LLM, которые обучаются предсказывать следующий токен на огромных массивах интернет-текста, HRM-Text обучали только на парах «инструкция — ответ». Исследователи считают, что такой подход ближе к тому, как модели используют в бизнесе: пользователь задает конкретную задачу и ожидает полезный ответ.

Исследователи Sapient обучили модель на 1 миллиарде параметров менее чем за два дня на кластере из 16 GPU. Для обучения использовалось около 40 миллиардов токенов — значительно меньше, чем у многих современных языковых моделей.

По данным авторов, HRM-Text показала конкурентные результаты на ряде бенчмарков. Модель набрала 60,7% на MMLU, 84,5% на GSM8K и 56,2% на MATH, что сопоставимо с некоторыми open source-моделями на 2–7 миллиарда параметров.

Главный вывод исследования: базовые модели не обязательно должна запоминать весь интернет, чтобы быть полезными для рассуждений. В Sapient считают, что компаниям может быть выгоднее обучать компактные модели под собственные задачи, а фактические знания получать из внешних баз данных и retrieval-систем.

Генеральный директор Sapient Intelligence Гуань Ван считает, что для бизнеса проблема не только в стоимости обучения, но и в скорости экспериментов. «Когда обучение способной рассуждающей модели стоит около $1500, ИИ перестает быть только вопросом инфраструктуры и становится вопросом стратегии», — заявил он.

Такой подход может быть особенно интересен банкам, страховым компаниям, хедж-фондам и другим организациям с чувствительными внутренними данными. Вместо отправки этих данных во внешние модели они могут обучать компактные модели в контролируемой среде.

Однако Sapient признает, что HRM-Text пока не является полноценной заменой популярных ИИ-систем. Это скорее демонстрация того, что альтернативная архитектура может резко снизить стоимость обучения моделей для задач, требующих рассуждения.

Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
По теме
Microsoft запретила сотрудникам использовать Claude Fable 5: смутила политика данных Anthropic
Сколько бизнес тратит на ИИ в расчёте на сотрудника? Новые данные за июнь
Сколько бизнес тратит на ИИ в расчёте на сотрудника? Новые данные за июнь
По теме
Сколько бизнес тратит на ИИ в расчёте на сотрудника? Новые данные за июнь
Только 26% компаний полностью контролируют расходы на ИИ
Только 26% компаний полностью контролируют расходы на ИИ 
По теме
Только 26% компаний полностью контролируют расходы на ИИ
Читайте также
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Автор вайб-кодинга представил nanochat — проект для обучения LLM за 4 часа и $100
Автор вайб-кодинга представил nanochat — проект для обучения LLM за 4 часа и $100
Автор вайб-кодинга представил nanochat — проект для обучения LLM за 4 часа и $100
1 комментарий
Разраб придумал способ снизить расходы на токены в разы
Разраб придумал способ снизить расходы на токены в разы
Разраб придумал способ снизить расходы на токены в разы
Можно будет зарабатывать до $150 в час: LinkedIn запускает платформу для обучения ИИ
Можно будет зарабатывать до $150 в час: LinkedIn запускает платформу для обучения ИИ
Можно будет зарабатывать до $150 в час: LinkedIn запускает платформу для обучения ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.