«Найбуйнейшы крадзеж у ЗША»: АІ-стартапы пахаваюць капірайт
Распрацоўшчыкі ігнаруюць уласную палітыку і аўтарскае права ў пагоні за лідарствам у індустрыі штучнага інтэлекту. The New York Times высветліла, чаму праблему недахопу даных ніхто не хоча вырашаць з дапамогай капірайту.
Яшчэ ў 2021 годзе на той момант вядучы АІ-стартап OpenAI сутыкнуўся з праблемай даных. Лабараторыі кампаніі вычарпалі ўсе запасы англамоўных тэкстаў у інтэрнэце, якія былі даступныя і прыдатныя для навучання АІ-мадэлі. Стварэнне новай версіі патрабавала значна больш інфармацыі. Каб вырашыць гэтую праблему, даследчыкі OpenAI стварылі сэрвіс для распазнання маўлення Whisper. Ён расшыфроўваў аўдыя з ролікаў Youtube — гэтыя тэксты можна было выкарыстоўваць для навучання АІ.
Некалькі супрацоўнікаў OpenAI заявілі, што такі падыход супярэчыць правілам Youtube, паколькі платформа забараняе выкарыстоўваць свае відэа іншым кампаніям. Аднак гэтыя папярэджанні нікога не збянтэжылі: каманда стартапа расшыфравала больш за 1 мільён гадзін відэа. Суразмоўцы выдання сцвярджаюць, што ў каманду ўваходзіў прэзідэнт кампаніі Грэг Брокман. Ён распарадзіўся перадаць тэксты GPT-4: вялікай моўнай мадэлі, на аснове якой была створана апошняя версія чат-бота ChatGPT.
Гонка за лідарства ў сферы АІ ператварылася ў адчайнае паляванне за лічбавымі данымі. Каб атрымаць гэтыя даныя, тэхналагічныя кампаніі гатовыя ігнараваць сваю карпаратыўную палітыку і нават спрабаваць абысці закон.
Выкарыстоўваючы кантэнт канкурэнта, OpenAI паставіла Google у няёмкае становішча. Супрацоўнікі Google прызналіся, што кампанія ведала пра збор сваіх відэа, але не спыняла OpenAI, паколькі сама выкарыстоўвае ролікі для навучання ўласных АІ-мадэляў. Калі б Google падняла шуміху вакол парушэнняў аўтарскага права, у карыстальнікаў узніклі б пытанні да самой кампаніі. Таму Google глядзіць на дзеянні канкурэнта скрозь пальцы, абмяжоўваючыся толькі выказваннем незадаволенасці.
Юрысты, якія займаюцца пытаннямі канфідэнцыйнасці ў Google, атрымалі ад кіраўніцтва заданне змяніць фармулёўкі карыстальніцкай дамовы, якія дазволілі б свабодна выкарыстоўваць даныя для навучання АІ. Калі раней гаворка вялася пра права кампаніі выкарыстоўваць даныя пры распрацоўцы новых функцый, напрыклад, у Google Translate, то пасля змяненняў у абзац дадалі таксама Bard і Cloud AI. Спробы высветліць, ці тычыцца гэта канфідэнцыйнай інфармацыі, ні да чога не прывялі: топ-менеджары не далі юрыстам дакладных адказаў.
Паказальнай стала гісторыя Meta. Марк Цукерберг шмат гадоў інвеставаў у AI, каб раптам апынуцца далёка ззаду — калі OpenAI выпусціла ChatGPT у 2022 годзе. Кіраўнік кампаніі неадкладна пачаў падганяць падначаленых, патрабуючы хуткага рэлізу ўласнага чат-бота. Але распрацоўшчыкі Meta сутыкнуліся з той жа перашкодай, што і яе канкурэнты: ім не ставала даных. Цукербергу далажылі, што аналаг ChatGPT не з’явіцца, пакуль не атрымаецца дастаць больш даных.
Хоць Meta кіруе гіганцкімі сацыяльнымі сеткамі, такімі як Facebook і Instagram, у яе распараджэнні не так шмат інфармацыі. Карыстальнікі не імкнуцца дзяліцца данымі, выдаляюць свае папярэднія публікацыі, а кантэнт сацсетак у большасці выпадкаў складаецца з кароткіх пастоў, а не доўгіх высакаякасных эсэ. Таксама Meta сама сябе абмежавала зменамі канфідэнцыйнасці, якія яна ўвяла пасля скандалу 2018 года, звязанага з аналітычнай фірмай Cambridge Analytica.
Тады ўзнікла ідэя куплі выдавецтва Simon & Schuster. Гэтая ўгода зрабіла б даступнымі творы аўтараў — якасныя аб’ёмныя тэксты ідэальна пасуюць для навучання АІ. Кампанія была гатовая выкарыстоўваць апублікаваныя раманы, нават калі гэта справакавала б судовыя пазовы з боку аўтараў. На думку супрацоўнікаў Meta, перамовы наконт ліцэнзій з выдаўцамі, мастакамі, пісьменнікамі і журналістамі зоймуць занадта шмат часу.
Адзін з удзельнікаў бясконцых нарад у Цукерберга ўспамінае, што на пытанне пра магчымыя праблемы з аўтарскім правам ён пачуў магільнае маўчанне менеджараў. Усе былі ўпэўненыя, што раз OpenAI не звяртае ўвагі на такія праблемы, то Meta можа дазволіць сабе тое ж самае.
Гэтыя прыклады ілюструюць новае супрацьстаянне паміж АІ-распрацоўшчыкамі і праваўладальнікамі. Любая анлайн-інфармацыя сёння стала крыніцай жыццёвай сілы для штучнага інтэлекту. Інавацыі ў гэтай сферы напрамую залежаць ад дастатковай колькасці даных для навучання. Іх якасць мае вырашальнае значэнне, паколькі пакаленні людзей ужо зрабілі ўсю працу: апублікаваныя кнігі і артыкулы былі старанна напісаныя і адрэдагаваныя прафесіяналамі.
Доўгі час інтэрнэт з такімі рэсурсамі як «Вікіпедыя» і Reddit здаваўся бяздоннай крыніцай даных. Мільярды карыстальнікаў пастаянна ствараюць велізарную колькасць кантэнту: пошукавыя запыты, паведамленні, фатаграфіі і відэа ў сацыяльных сетках. Але Google і Meta былі ў значнай ступені абмежаваныя законамі пра канфідэнцыйнасць і ўласнай карыстальніцкай палітыкай. Раптоўны ажыятаж вакол ChatGPT і паводзіны OpenAI справакавалі канкурэнтаў дзейнічаць агрэсіўней.
На думку экспертаў, адзіны шлях развіцця АІ — гэта навучанне мадэляў на вялікіх аб’ёмах даных без неабходнасці іх ліцэнзавання. «Аб’ём неабходных даных настолькі велізарны, што нават калектыўнае ліцэнзаванне насамрэч не зможа працаваць», — лічыць юрыст венчурнага фонду Andreessen Horowitz Сай Дэмл. Паводле ацэнак даследчага інстытута Epoch, якасныя даныя для навучання АІ скончацца ўжо ў 2026 годзе: распрацоўшчыкі выкарыстоўваюць іх хутчэй, чым яны з’яўляюцца.
Здаецца, меркаванне праваўладальнікаў нікога не цікавіць. Сярод аўтараў расце незадаволенасць — і стваральнікі кантэнту закідваюць стартапы пазовамі. Напрыклад, у мінулым годзе The New York Times падала ў суд на OpenAI і Microsoft за выкарыстанне навінавых артыкулаў, абароненых аўтарскім правам. У адказ кампаніі заявілі, што прытрымліваліся прынцыпу «добрасумленнага выкарыстання», які дазволены законам. Гучыць гэта не вельмі пераканаўча, і іншыя выдаўцы спешна закрываюць доступ да сваіх рэсурсаў для АІ-алгарытмаў.
Больш за 10 тысяч праваўладальнікаў звярнуліся ў Бюро аўтарскага права — амерыканскі рэгулятар капірайту — наконт выкарыстання твораў штучным інтэлектам. Ведамства паабяцала апублікаваць падручнік пра тое, як заканадаўства ў сферы аўтарскага права неабходна ўжываць да АІ. «Гэта найбуйнейшы крадзеж у ЗША. Кропка», — так выказала акторка і рэжысёрка Жусцін Бейтман агульнае меркаванне праваўладальнікаў.
Аб надыходзячай катастрофе пісаў фізік Джарэд Каплан яшчэ ў 2020 годзе, калі апублікаваў артыкул пра штучны інтэлект, які стаў ключавым для індустрыі. Сёння Каплан узначальвае навуковыя даследаванні аднаго з галоўных гульцоў рынку — кампаніі Anthropic. Яго выснова была адназначнай: чым больш даных будзе для навучання вялікай моўнай мадэлі — тым лепш яна будзе працаваць. Гэты прынцып маштабавання можна назваць законам, паколькі ён працуе безадмоўна.
У 2020 годзе датасэты былі па сённяшніх мерках малюсенькімі: напрыклад, адная з папулярных баз даных утрымоўвала ўсяго 30 тысяч фатаграфій з сайта Flickr. Каплан расплюшчыў вочы распрацоўшчыкам — і пачалася пагоня за данымі. Паказаная ўжо ў лістападзе GPT-3 была навучаная на 300 мільярдах токенаў, якія па сутнасці ёсць фрагментамі слоў і іншага кантэнту. У 2022 годзе адная з мадэляў, створаных Google, выкарыстала ўжо 1,4 трыльёна токенаў. Кітайская мадэль Skywork, паводле слоў стваральнікаў, навучаная на 3,2 трыльёна токенаў. Мадэль PaLM 2 — на 3,6 трыльёна.
Пазіцыю распрацоўшчыкаў агучыў генеральны дырэктар OpenAI Сэм Альтман, заявіўшы, што кампанія будзе выкарыстоўваць усе магчымыя даныя ў інтэрнэце. Калі ў 2021 годзе стартап адчайна меў патрэбу ў даных для распрацоўкі GPT-4, супрацоўнікі абмяркоўвалі магчымасць расшыфроўкі падкастаў, аўдыякніг і відэа. Кіраўніцтва нават разглядала варыянт куплі іншых стартапаў, якія паспелі апрацаваць большы аб’ём даных. Расшыфроўка ролікаў Youtube стала рашэннем праблемы.
Тэарэтычна выйсце ўсё ж такі ёсць — гэта стварэнне «сінтэтычнай» інфармацыі з дапамогай саміх АІ-мадэляў. Іншымі словамі, мадэлі вучацца на тым, што самі генеруюць.
У сінтэтычных даных ёсць свой мінус — гэта павышаная рызыка памылак і скажэнняў. Створаная самім АІ, гэтая інфармацыя можа толькі ўзмацняць эфект «галюцынацый», характэрны для такіх сістэм. «Даныя, неабходныя для гэтых сістэм, падобныя да сцяжыны праз джунглі. Калі яны будуць трэніравацца толькі на сінтэтычных звестках, яны могуць заблудзіцца ў джунглях», — расказаў Джэф Клун, былы супрацоўнік OpenAI, які цяпер выкладае інфарматыку ва ўніверсітэце Брытанскай Калумбіі.
OpenAI прыдумала, як вырашыць гэтую праблему. Новы падыход заснаваны на прынцыпе машыннага навучання: адзін АІ будзе генераваць сінтэтычныя даныя, тады як іншы АІ будзе аналізаваць, наколькі гэтая інфармацыя пасуе для навучання. Меркаванні даследчыкаў пра эфектыўнасць такога метаду падзяліліся. Тым не менш Сэм Альтман упэўнены, што недахоп даных — толькі часовая цяжкасць. Наперадзе — рэліз GPT-5, для якой ужо не хопіць ніякага інтэрнэту.
Читать на dev.by