Project Bulba: Google выкарыстоўвала ChatGPT, каб перамагчы ChatGPT
У 2023 годзе Google абвінавацілі ў тым, што яна выкарыстоўвае адказы ChatGPT, каб палепшыць свайго ШІ-чат-бота Bard. Кампанія тады аднеквалася, але цяпер у распараджэнне Business Insider трапілі сотні дакументаў, з якіх вынікае, што яе падрадчыкі з Scale AI сістэматычна гэта рабілі.
Падрадчыкі стартапа генерылі тысячы адказаў ChatGPT, потым бралі адказы Bard, перапісвалі іх і параўноўвалі з адказамі ChatGPT — каб былі лепшыя ці хаця б не горшыя, пасля чаго скормлівалі назад боту Google. Акрамя таго, ім ставілася задача старанна вывучаць адказы GPT-4, каб зразумець, чаму менавіта яны лепшыя за адказы Bard, і падзяліцца высновамі з калегамі.
Менеджары Scale AI у дэталях зафіксавалі, што адказы ChatGPT былі лепш адфарматаваныя і змяшчалі больш цікавыя факты. Работнікі павінны былі рабіць лепшымі мадэлі пад капотам бота OpenAI. Напрыклад, у адным дакуменце сабраны імёны дзясяткаў падрадчыкаў, чые адказы былі пастаянна горшыя за GPT-4. А ў іншым падрадчыкам абяцаюць 15%-ны бонус за адказы, якія лепшыя, чым у ChatGPT.
Дарэчы, 49% долей у стартапе з Сан-Францыска, які займаецца разметкай дадзеных для тэхнакампаній, нядаўна за $15 млрд купіла Meta. А яго СЕО Аляксандр Ван узначаліць тут новую каманду па стварэнні звышінтэлекту, якую збірае сам Марк Цукерберг.
Project Bulba
Звязаны з Bard праект праходзіў у Scale AI пад кодавай назвай Bulba — у гонар пакемона Бульбазаўра. Scale AI ніколі не называў Google наўпрост ва ўнутраных дакументах і спасылаўся на яе як на ананімнага «кліента». Але ў файлах ёсць згадкі Bard, а ў адзін з навучальных дакументаў прабраўся лагатып Google.
Адказы ChatGPT выкарыстоўваліся для паляпшэння адказаў Bard у тым ліку па фізіцы і распрацоўцы. Прычым Scale AI і Google забаранялі цалкам капіпасціць адказы ChatGPT.
OpenAI ў правілах карыстання забараняе выкарыстоўваць свайго бота «для распрацоўкі канкурэнтных мадэляў». Але ў Scale AI выданню сказалі, што адказы ChatGPT або якіх-небудзь іншых ботаў не выкарыстоўваліся для трэніроўкі мадэляў Google ці чыіх-небудзь яшчэ. Яны выкарыстоўваліся для рутыннай ацэнкі адказаў — стандартнай практыкі ў галіне. Маўляў, гэта не тое ж самае, што скормліваць аднаму боту адказы іншага для навучання — тут так не рабілі. У Google таксама сказалі, што не выкарыстоўвалі чужыя мадэлі для трэніроўкі Gemini, у якую быў перайменаваны Bard.
Тым не менш эксперты адзначаюць, што нават такія параўнальныя дадзеныя ўплываюць на адказы мадэляў: выстаўленне адзнак адказам і робіцца для каліброўкі мадэляў, то бок можна сказаць, што ChatGPT усё роўна ўцягнуты ў працэс трэніроўкі.
Доказы ў вольным доступе
Да гэтага ў публічнай прасторы не было падрабязнасцяў аб супрацоўніцтве Scale AI і Google. Аднак стартап пакінуў у адкрытым доступе файл Google Docs больш чым на 300 старонак з купай спасылак на іншыя Google-дакументы. Многія з іх агульнадаступныя і змяшчаюць адчувальную інфармацыю, напрыклад аб аплаце падрадчыкаў, асабістыя емэйлы і вынікі перфоманс-рэвью, а таксама актуальныя паролі да трэніровачных сэсій. Некаторыя дакументы нават могуць быць адрэдагаваныя ўсімі, у каго ёсць спасылка.
У Scale AI сказалі, што «актыўна расследуюць», хто мог атрымаць доступ да файла, і спрабуюць нешта рабіць, каб усё выправіць. BI піша, што праз два дні пасля таго, як паведаміў стартапу аб файле, ён усё яшчэ заставаўся ляжаць у сеціве, даступны для спампоўкі ўсім, у каго ёсць спасылка.
Читать на dev.by