OpenAI пытается скрыть, что тренировала ChatGPT на книгах, защищённых авторским правом

Согласно новому исследованию ByteDance (владеет TikTok), чатбот ChatGPT пытается скрыть, что был обучен на материалах, охраняемых авторским правом. Работа была направлена на повышение надёжности и точности ответов языковых моделей при помощи различных приёмов. 

6 комментариев

ChatGPT, как и практически все другие большие языковые модели, обучался на огромных наборах данных и текста из интернета, в том числе на книгах. К OpenAI всё чаще предъявляют претензии и судебные иски за использование таких работ без разрешения правообладателей.

В итоге OpenAI и другие компании вроде Google, Meta и Microsoft просто больше не раскрывают информацию о том, какие данные скармливали моделям. Но в неудобном факте могут признаваться сами ИИ-инструменты, и это очень беспокоит разработчиков.

Поэтому теперь ChatGPT всячески уходит от ответа на пользовательские запросы, в которых присутствуют фразы из несвободно распространяемых материалов — например, когда исследователи вводят предложение из книги и пытаются получить следующее за ним. Хотя предыдущая версия модели без проблем выдавала точное продолжение заданной фразы.

ChatGPT даёт неправильные ответы на вопросы по программированию более чем в половине случаев
По теме
ChatGPT даёт неправильные ответы на вопросы по программированию более чем в половине случаев

«Мы полагаем, что разработчики ChatGPT внедрили механизм для определения, когда пользователь стремится вытянуть защищённый авторским правом контент или проверить сходство между сгенерированным ответом и контентом, защищённым авторским правом», — отмечают исследователи.

Но несмотря на это ChatGPT всё равно может выдавать такой контент, как и многие другие ИИ-модели. Исследователи проверяли различные версии ChatGPT, OPT-1.3B от Meta, FLAN-T5 от Google, DialoGPT от Microsoft и ChatGLM разработки Университета Цинхуа в Китае. Все они точно или почти точно ответили на запросы с фразами из книг о Гарри Поттере британской писательницы Джоан Роулинг — иногда ответы отличались одним-двумя словами. «Все большие языковые модели выдавали текст, который больше напоминал защищённый авторским правом контент, чем случайно сгенерированный текст», — говорят исследователи.

Вместе с тем они считают, что новшество в ChatGPT поможет оградить использовавшийся для обучения защищённый контент от пользователей, которые специально хотят его извлечь при помощи кастомизированных запросов.

OpenAI получила иск за использование данных пользователей для обучения ChatGPT
По теме
OpenAI получила иск за использование данных пользователей для обучения ChatGPT

Читать на dev.by