Николай Чикишев 2 красавіка 2024, 16:22

Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя

Распрацоўка новых АІ-мадэляў сутыкнулася з нечаканай праблемай: для навучання не хапае якаснага кантэнту. Выкарыстанне сінтэтычнай інфармацыі іншых мадэляў можа толькі пагоршыць сітуацыю.

2 каментарыя

Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя

Распрацоўка новых АІ-мадэляў сутыкнулася з нечаканай праблемай: для навучання не хапае якаснага кантэнту. Выкарыстанне сінтэтычнай інфармацыі іншых мадэляў можа толькі пагоршыць сітуацыю.

Паводле ацэнак навукоўцаў, у найбліжэйшыя два гады якасных тэкстаў для далейшага навучання вялікіх моўных мадэляў можа не хапіць. Гэта прывядзе да запаволення развіцця ўсёй індустрыі. Праблема ўскладняецца тым, што многія рэсурсы блакуюць доступ АІ да сваіх даных. Напрыклад, OpenAI вымушаная навучаць GPT-5 на транскрыпцыі публічных ролікаў Youtube, але даных усё роўна не хапае.

Чым больш даступных даных, тым дасканалейшай можна стварыць АІ-мадэль. GPT-4 вучылася на 12 трыльёнах токенаў даных, у такім выпадку GPT-5 спатрэбіцца ўжо каля 60-100 трыльёнаў токенаў. Даследчыкі яшчэ два гады таму разлічылі, што ў сярэдзіне 2024 года імавернасць недахопу звестак дасягне 50%, у 2026 года яна ўзрасце да 90%.

Але і даступная інфармацыя па большай частцы няякасная: часцей за ўсё гэта проста няскладны тэкст або рэрайт існай інфармацыі. Толькі дзясятая частка сабранага Common Crawl матэрыялу падыходзіць для навучання АІ. Базай гэтай арганізацыі карыстаюцца многія распрацоўшчыкі.

Яшчэ адная праблема — гэта супрацоўніцтва з буйнымі сацсеткамі, галоўнай крыніцай даных для навучання. Платформы закрываюць доступ да сваіх даных, а карыстальнікі не хочуць даваць распрацоўшчыкам асабістыя даныя. Усё гэта прыводзіць да таго, што на кампаніі падаюць у суд за парушэнне аўтарскага права.

Адное з рашэнняў праблемы недахопу кантэнту — стварэнне «вучэбнага плана» для будучай мадэлі, калі распрацоўшчык дае доступ нейрасетцы да даных у вызначаным парадку. Так мадэль робіць сувязі паміж блокамі інфармацыі. Такі падыход дазваляе скараціць аб’ём ўваходных даных удвая, але вынікі разлікаў недакладныя.

Гендырэктар OpenAI Сэм Альтман агучыў ідэю «рынку даных», які неабходна стварыць для АІ-распрацоўшчыкаў. Тады кампаніі змогуць плаціць справядлівую цану за якасную базу даных для навучання сваіх мадэляў. Пакуль жа стартапы выкарыстоўваюць усё, што толькі можна атрымаць з інтэрнэту, на свае страх і рызыку.

Яшчэ адзін варыянт — гэта ствараць сінтэтычныя якасныя даныя самастойна. Напрыклад, з імі эксперыментуюць OpenAI і Anthropic, апошняя выкарыстоўвала сінтэтычныя даныя пры навучанні апошніх версій Claude.