Развитие рассуждающего ИИ скоро упрется в потолок, считают эксперты

Рассуждающие модели ИИ, такие как o3 от OpenAI, быстро прогрессируют, особенно в решении задач по математике и программированию. Однако исследование Epoch AI показывает, что их бурный рост может замедлиться уже через год из-за ограничений в вычислительных ресурсах и данных.

Оставить комментарий

OpenAI сообщила, что o3 использует в 10 раз больше вычислений для обучения рассуждению, чем ее предшественница o1, выпущенная всего четыре месяца назад. Это позволило o3 значительно улучшить результаты в тестах, таких как AIME и задачи по программированию от METR.

Однако такие скачки каждые несколько месяцев не могут продолжаться долго. Epoch AI оценивает, что если нынешние темпы развития сохранятся, вычисления для обучения рассуждению достигнут предела — около 1e26 FLOP — уже к 2026 году. После этого рост замедлится до 4-кратного в год, как в остальной индустрии ИИ.

Возможная траектория роста вычислений для обучения рассуждению, если масштабирование, подобное скачку между o1 и o3, продолжится. Источник: Epoch AI.

Модели рассуждения создаются в два этапа: сначала их обучают на огромных наборах данных, а затем применяют обучение с подкреплением (RL), где модели получают обратную связь за решение сложных задач. Этот RL-этап требует больших вычислительных ресурсов.

Например, модель DeepSeek-R1 использовала около 6e23 FLOP (примерно $1 миллион) на RL-обучение, что составляет 20% затрат на ее предварительное обучение. Для сравнения, другие модели, такие как Llama-Nemotron Ultra от Nvidia (1e23 FLOP) и Phi-4-reasoning от Microsoft (менее 1e20 FLOP), требуют разного уровня вычислений, но их обучение опирается на синтетические данные, что усложняет сравнение.

Существуют и другие препятствия. Это нехватка данных: для RL-обучения нужны разнообразные сложные задачи, но их создание или генерация в достаточном количестве — сложная задача. Также существуют ограничения обобщения: модели отлично справляются с математикой и кодом, но их успех в творческих или неоднозначных задачах под вопросом.

До сих пор все модели ИИ подвержены галлюцинациям: модели рассуждения чаще выдают выдуманные или ошибочные ответы, чем обычные ИИ. Разработчики испытывают и скрытые затраты, например, исследования и эксперименты для настройки моделей могут быть дороже, чем само обучение.

Гендиректор Anthropic Дарио Амодеи в январе отметил, что затраты на RL-обучение пока невелики — около $1–10 миллионов, но компании уже нацелены на сотни миллионов. Это говорит о том, что o1 и o3 еще не достигли предела вычислений, но близки к нему.

Исследователи OpenAI, включая Дэна Робертса, уверены, что дальнейшее увеличение вычислений улучшит модели. Однако, если вычисления упрутся в потолок, прогресс может зависеть от новых алгоритмов или данных. Эксперты считают, что следующий год станет ключевым для понимания, как далеко зайдут модели рассуждения.

Трамп отменил запрет Байдена на экспорт чипов для ИИ 
По теме
Трамп отменил запрет Байдена на экспорт чипов для ИИ
Половина — что даст буст, треть — что отберёт работу: беларусы высказались об ИИ 
По теме
Половина — что даст буст, треть — что отберёт работу: беларусы высказались об ИИ
OpenAI: ИИ научился сам генерировать новые знания
По теме
OpenAI: ИИ научился сам генерировать новые знания

Читать на dev.by