Project Bulba: Google использовала ChatGPT, чтобы победить ChatGPT

В 2023 году Google обвинили в том, что она использует ответы ChatGPT, чтобы улучшить своего ИИ-чат-бота Bard. Компания тогда отнекивалась, но теперь в распоряжение Business Insider попали сотни документов, из которых следует, что её подрядчики из Scale AI систематически это делали.

Оставить комментарий

Подрядчики стартапа генерили тысячи ответов ChatGPT, потом брали ответы Bard, переписывали их и сравнивали с ответами ChatGPT — чтобы были лучше или хотя бы не хуже, после чего скармливали назад боту Google. Кроме того, им ставилась задача тщательно изучать ответы GPT-4, чтобы понять, почему именно они лучше ответов Bard, и поделиться выводами с коллегами.

Менеджеры Scale AI в деталях зафиксировали, что ответы ChatGPT были лучше отформатированы и содержали более интересные факты. Работники дожны были делать лучше модели под капотом бота OpenAI. Например, в одном документе собраны имена десятков подрядчиков, чьи ответы были постоянно хуже GPT-4. А в другом подрядчикам обещают 15%-ный бонус за ответы, которые лучше, чем у ChatGPT.

К слову, 49% долей в стартапе из Сан-Франциско, который занимается разметкой данных для технокомпаний, недавно за $15 млрд купила Meta. А его СЕО Александр Ван возглавит здесь новую команду по созданию сверхинтеллекта, которую собирает сам Марк Цукерберг.

Project Bulba

Связанный с Bard проект проходил в Scale AI под кодовым названием Bulba — в честь покемона Бульбазавра. Scale AI никогда не называл Google напрямую во внутренних документах и ссылался на неё как на анонимного «клиента». Но в файлах есть упоминания Bard, а в один из обучающих документов прокрался логотип Google.

Ответы ChatGPT использовались для улучшения ответов Bard в том числе по физике и разработке. Причём Scale AI и Google запрещали полностью копипастить ответы ChatGPT.

OpenAI в правилах пользования запрещает использовать своего бота «для разработки конкурирующих моделей». Но в Scale AI изданию сказали, что ответы ChatGPT или каких-либо других ботов не использовались для тренировки моделей Google или чьих-либо ещё. Они использовались для рутинной оценки ответов — стандартной практики в отрасли. Мол, это не то же самое, что скармливать одному боту ответы другого для обучения — здесь так не делали. В Google тоже сказали, что не использовали чужие модели для тренировки Gemini, в которую был переименован Bard.

Тем не менее эксперты отмечают, что даже такие сравнительные данные влияют на ответы моделей: выставление оценок ответам и делается для калибровки моделей, то есть можно сказать, что ChatGPT всё равно вовлечён в процесс тренировки.

Улики в свободном доступе

До этого в публичном пространстве не было подробностей о сотрудничестве Scale AI и Google. Однако стартап оставил в открытом доступе файл Google Docs более чем на 300 страниц с кучей ссылок на другие Google-документы. Многие из них общедоступны и содержат чувствительную информацию, например об оплате подрядчиков, личные емейлы и результаты перфоманс-ревью, а также актуальные пароли к тренировочным сессиям. Некоторые документы даже могут быть отредактированы всеми, у кого есть ссылка.

В Scale AI сказали, что «активно расследуют», кто мог получить доступ к файлу, и пытаются что-то делать, чтобы всё починить. BI пишет, что через два дня после того, как сообщил стартапу о файле, он всё ещё оставался лежать в сети, доступный для скачивания всем, у кого есть ссылка.

Google обучала Bard на ответах ChatGPT?
По теме
Google обучала Bard на ответах ChatGPT?
«Поспешно, топорно»: сотрудники Google разнесли презентацию фирменного ИИ-чатбота
По теме
«Поспешно, топорно»: сотрудники Google разнесли презентацию фирменного ИИ-чатбота
«Совершенно неприемлемо»: Пичаи прокомментировал расистскую проблему Gemini, которая уже стоила Google $90 млрд капитализации
По теме
«Совершенно неприемлемо»: Пичаи прокомментировал расистскую проблему Gemini, которая уже стоила Google $90 млрд капитализации
У OpenAI, Google и Anthropic возникли проблемы при разработке новых ИИ-моделей
По теме
У OpenAI, Google и Anthropic возникли проблемы при разработке новых ИИ-моделей

Читать на dev.by