Почему ИИ быстрее учится писать код, чем письма: что такое «разрыв подкрепления»

ИИ стремительно умнеет, но не во всём одинаково. За последние месяцы модели вроде GPT-5, Gemini 2.5 и Sonnet 4.5 сделали гигантский скачок в программировании — теперь они не просто помогают писать код, а способны брать на себя целые куски работы.

А вот генераторы писем, кажется, застряли на месте по сравнению с тем, что было год назад — или чат-боты, которым приходится жонглировать десятком разных задач, пишет TechCrunch.

Оставить комментарий

Исследователи называют это «разрывом подкрепления» (reinforcement gap). Это разница между тем, чему ИИ может научиться быстро, и тем, где прогресс идёт медленно.

Причина проста, и она в том, что код легко проверять. Для моделей есть масса готовых тестов, которые позволяют мгновенно понять, работает программа или нет. Это идеальная среда для обучения через подкрепление — механизма, который сегодня двигает ИИ вперёд. Если система может получать понятную «оценку» (прошёл тест — не прошёл), её можно тренировать без остановки.

С текстами так не выйдет. Что считать «хорошим письмом» или «удачным ответом чат-бота» — часто вопрос вкуса. Здесь нет никакого автоматического теста, и модель учится медленнее. Поэтому навыки вроде отладки кода или математических расчётов растут семимильными шагами, а написание текстов или общение — миллиметровыми.

«Разрыв подкрепления» становится ключевым фактором, который определяет, какие ИИ-навыки будут развиваться быстрее. Разработка ПО для этого — почти идеальный полигон. Ещё до ИИ программисты жили тестами: юнит-тестами, интеграционными, нагрузочными — чтобы убедиться, что код не сломается при запуске. Теперь те же тесты — систематичные и масштабируемые — проверяют код, написанный ИИ.

А вот проверить «качество письма» или «удачную презентацию» невозможно без человека. Хотя и здесь не всё так однозначно, отмечает издание: компании, у которых есть ресурсы и фантазия, могут создать собственные тесты даже для сложных областей вроде финансовой аналитики и бухгалтерии.

Иногда тестируемыми оказываются даже те вещи, которые, казалось бы, не поддаются автоматизированной проверке — например, Sora 2 от OpenAI. Её ролики стали гораздо реалистичнее, улучшена физика, и это — результат того же обучения с подкреплением, только применённого к видео.

Если в будущем появятся новые подходы к обучению ИИ, «разрыв подкрепления» может исчезнуть. Но пока именно он определяет, какие профессии и задачи поддаются автоматизации, а какие — ещё держатся. Если процесс можно измерить и протестировать, его почти наверняка можно будет автоматизировать.

Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
По теме
Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
Компании несут убытки от внедрения ИИ — прибыли пока не видно
По теме
Компании несут убытки от внедрения ИИ — прибыли пока не видно

Читать на dev.by