Дапамажыце dev.by 🤍
Падтрымаць

Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя

Распрацоўка новых АІ-мадэляў сутыкнулася з нечаканай праблемай: для навучання не хапае якаснага кантэнту. Выкарыстанне сінтэтычнай інфармацыі іншых мадэляў можа толькі пагоршыць сітуацыю.

2 каментарыя
Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя

Распрацоўка новых АІ-мадэляў сутыкнулася з нечаканай праблемай: для навучання не хапае якаснага кантэнту. Выкарыстанне сінтэтычнай інфармацыі іншых мадэляў можа толькі пагоршыць сітуацыю.

Паводле ацэнак навукоўцаў, у найбліжэйшыя два гады якасных тэкстаў для далейшага навучання вялікіх моўных мадэляў можа не хапіць. Гэта прывядзе да запаволення развіцця ўсёй індустрыі. Праблема ўскладняецца тым, што многія рэсурсы блакуюць доступ АІ да сваіх даных. Напрыклад, OpenAI вымушаная навучаць GPT-5 на транскрыпцыі публічных ролікаў Youtube, але даных усё роўна не хапае.

Чым больш даступных даных, тым дасканалейшай можна стварыць АІ-мадэль. GPT-4 вучылася на 12 трыльёнах токенаў даных, у такім выпадку GPT-5 спатрэбіцца ўжо каля 60-100 трыльёнаў токенаў. Даследчыкі яшчэ два гады таму разлічылі, што ў сярэдзіне 2024 года імавернасць недахопу звестак дасягне 50%, у 2026 года яна ўзрасце да 90%.

Але і даступная інфармацыя па большай частцы няякасная: часцей за ўсё гэта проста няскладны тэкст або рэрайт існай інфармацыі. Толькі дзясятая частка сабранага Common Crawl матэрыялу падыходзіць для навучання АІ. Базай гэтай арганізацыі карыстаюцца многія распрацоўшчыкі.

Яшчэ адная праблема — гэта супрацоўніцтва з буйнымі сацсеткамі, галоўнай крыніцай даных для навучання. Платформы закрываюць доступ да сваіх даных, а карыстальнікі не хочуць даваць распрацоўшчыкам асабістыя даныя. Усё гэта прыводзіць да таго, што на кампаніі падаюць у суд за парушэнне аўтарскага права.

Адное з рашэнняў праблемы недахопу кантэнту — стварэнне «вучэбнага плана» для будучай мадэлі, калі распрацоўшчык дае доступ нейрасетцы да даных у вызначаным парадку. Так мадэль робіць сувязі паміж блокамі інфармацыі. Такі падыход дазваляе скараціць аб’ём ўваходных даных удвая, але вынікі разлікаў недакладныя.

Гендырэктар OpenAI Сэм Альтман агучыў ідэю «рынку даных», які неабходна стварыць для АІ-распрацоўшчыкаў. Тады кампаніі змогуць плаціць справядлівую цану за якасную базу даных для навучання сваіх мадэляў. Пакуль жа стартапы выкарыстоўваюць усё, што толькі можна атрымаць з інтэрнэту, на свае страх і рызыку.

Яшчэ адзін варыянт — гэта ствараць сінтэтычныя якасныя даныя самастойна. Напрыклад, з імі эксперыментуюць OpenAI і Anthropic, апошняя выкарыстоўвала сінтэтычныя даныя пры навучанні апошніх версій Claude.

OpenAI открыла доступ к ChatGPT без регистрации
OpenAI открыла доступ к ChatGPT без регистрации
По теме
OpenAI открыла доступ к ChatGPT без регистрации
Мэрия Нью-Йорка запустила чат-бота для бизнеса. ИИ врал и давал рандомные ответы
Мэрия Нью-Йорка запустила чат-бота для бизнеса. ИИ врал и давал рандомные ответы
По теме
Мэрия Нью-Йорка запустила чат-бота для бизнеса. ИИ врал и давал рандомные ответы
Чат-боты уничтожат Google? Почему пока рано говорить о победе ИИ
Чат-боты уничтожат Google? Почему пока рано говорить о победе ИИ 
По теме
Чат-боты уничтожат Google? Почему пока рано говорить о победе ИИ

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

1

Ага, а GPT-6 вообще откажется выдавать ответы, потому что мелкие вопросы человека ей будут казаться глупыми и неинтересными.

Карыстальнік адрэдагаваў каментарый 3 красавіка 2024, 02:19

Anonymous
Anonymous
1

42 :)

https://spectrum.ieee.org/gpt-4-calm-down "And stop confusing performance with competence, says Rodney Brooks". Он говорит правильные вещи

[censored - П. 4.1.2. Пользовательского соглашения — https://devby.io/pages/polzovatelskoe-soglashenie]