Алеся Чапкевич world 9 кастрычніка 2025, 19:24

Чаму ШІ хутчэй навучаецца пісаць код, чым лісты: што такое "разрыў падмацавання"

ШІ імкліва разумнее, але не ва ўсім аднолькава. За апошнія месяцы мадэлі кшталту GPT-5, Gemini 2.5 і Sonnet 4.5 зрабілі гіганцкі скачок у праграмаванні — цяпер яны не проста дапамагаюць пісаць код, а здольныя браць на сябе цэлыя кавалкі працы.

А вось генератары лістоў, здаецца, застылі на месцы ў параўнанні з тым, што было год таму — ці чат-боты, якім даводзіцца жангліраваць дзясяткам розных задач, піша TechCrunch.

Пакінуць каментарый

ШІ імкліва разумнее, але не ва ўсім аднолькава. За апошнія месяцы мадэлі кшталту GPT-5, Gemini 2.5 і Sonnet 4.5 зрабілі гіганцкі скачок у праграмаванні — цяпер яны не проста дапамагаюць пісаць код, а здольныя браць на сябе цэлыя кавалкі працы.

А вось генератары лістоў, здаецца, застылі на месцы ў параўнанні з тым, што было год таму — ці чат-боты, якім даводзіцца жангліраваць дзясяткам розных задач, піша TechCrunch.

Даследчыкі называюць гэта «разрывам падмацавання» (reinforcement gap). Гэта розніца паміж тым, чаму ШІ можа навучыцца хутка, і тым, дзе прагрэс ідзе марудна.

Прычына простая, і яна ў тым, што код лёгка правяраць. Для мадэляў ёсць маса гатовых тэстаў, якія дазваляюць імгненна зразумець, працуе праграма ці не. Гэта ідэальнае асяроддзе для навучання праз падмацаванне — механізма, які сёння рухае ШІ наперад. Калі сістэма можа атрымліваць зразумелую «ацэнку» (прайшоў тэст — не прайшоў), яе можна трэніраваць без спынення.

З тэкстамі так не атрымаецца. Што лічыць «добрым лістом» ці «ўдалым адказам чат-бота» — часта пытанне густу. Тут няма ніякага аўтаматычнага тэсту, і мадэль вучыцца павольней. Таму навыкі кшталту адладкі кода ці матэматычных разлікаў растуць сямімільнымі крокамі, а напісанне тэкстаў ці зносіны — міліметровымі.

«Разрыў падмацавання» становіцца ключавым фактарам, які вызначае, якія ШІ-навыкі будуць развівацца хутчэй. Распрацоўка ПЗ для гэтага — амаль ідэальны палігон. Яшчэ да ШІ праграмісты жылі тэстамі: юніт-тэстамі, інтэграцыйнымі, нагрузачнымі — каб упэўніцца, што код не зламаецца пры запуску. Цяпер тыя ж тэсты — сістэматычныя і маштабаваныя — правяраюць код, напісаны ШІ.

А вось праверыць «якасць ліста» ці «ўдалую прэзентацыю» немагчыма без чалавека. Хоць і тут не ўсё так адназначна, адзначае выданне: кампаніі, у якіх ёсць рэсурсы і фантазія, могуць стварыць уласныя тэсты нават для складаных абласцей кшталту фінансавай аналітыкі і бухгалтэрыі.

Часам тэставанымі аказваюцца нават тыя рэчы, якія, здавалася б, не паддаюцца аўтаматызаванай праверцы — напрыклад, Sora 2 ад OpenAI. Яе ролікі сталі нашмат больш рэалістычнымі, палепшана фізіка, і гэта — вынік таго ж навучання з падмацаваннем, толькі ўжытага да відэа.

Калі ў будучыні з’явяцца новыя падыходы да навучання ШІ, «разрыў падмацавання» можа знікнуць. Але пакуль менавіта ён вызначае, якія прафесіі і задачы паддаюцца аўтаматызацыі, а якія — яшчэ трымаюцца. Калі працэс можна вымераць і пратэставаць, яго амаль напэўна можна будзе аўтаматызаваць.