Николай Чикишев 9 апреля 2024, 16:35

«Крупнейшая кража в США»: ИИ-стартапы похоронят копирайт

Разработчики игнорируют собственную политику и авторское право в погоне за лидерством в индустрии искусственного интеллекта. The New York Times выяснила, почему проблему нехватки данных никто не хочет решать с помощью копирайта.

Оставить комментарий

«Крупнейшая кража в США»: ИИ-стартапы похоронят копирайт

Разработчики игнорируют собственную политику и авторское право в погоне за лидерством в индустрии искусственного интеллекта. The New York Times выяснила, почему проблему нехватки данных никто не хочет решать с помощью копирайта.

Еще в 2021 году на тот момент ведущий ИИ-стартап OpenAI столкнулся с проблемой данных. Лаборатории компании исчерпали все запасы англоязычных текстов в интернете, которые были доступны и пригодны для обучения ИИ-модели. Создание новой версии требовало гораздо больше информации. Чтобы решить эту проблему, исследователи OpenAI создали сервис для распознавания речи Whisper. Он расшифровывал аудио из роликов Youtube — эти тексты можно было использовать для обучения ИИ.

Несколько сотрудников OpenAI заявили, что такой подход противоречит правилам Youtube, поскольку платформа запрещает использовать свои видео сторонним компаниям. Однако эти предупреждения никого не смутили: команда стартапа расшифровала более 1 миллиона часов видео. Собеседники издания утверждают, что в команду входил президент компании Грег Брокман. Он распорядился передать тексты GPT-4: большой языковой модели, на основе которой была создана последняя версия чат-бота ChatGPT.

Гонка за лидерство в сфере ИИ превратилась в отчаянную охоту за цифровыми данными. Чтобы получить эти данные, технологические компании готовы игнорировать свою корпоративную политику и даже пытаться обойти закон.

Используя контент конкурента, OpenAI поставила Google в неловкое положение. Сотрудники Google признались, что компания знала о сборе своих видео, но не останавливала OpenAI, поскольку сама использует ролики для обучения собственных ИИ-моделей. Если бы Google подняла шумиху вокруг нарушений авторского права, у пользователей возникли бы вопросы к самой компании. Поэтому Google смотрит на действия конкурента сквозь пальцы, ограничиваясь лишь выражением недовольства.

Юристы, которые занимаются вопросами конфиденциальности в Google, получили от руководства задание изменить формулировки пользовательского соглашения, которые позволили бы свободно использовать данные для обучения ИИ. Если ранее речь шла о праве компании применять данные при разработке новых функций, например, в Google Translate, то после изменений в абзац добавили также Bard и Cloud AI. Попытки выяснить, касается ли это конфиденциальной информации, ни к чему не привели: топ-менеджеры не дали юристам четких ответов.

Обучение ИИ-моделей может остановиться: в интернете кончились данные

Показательной стала история Meta. Марк Цукерберг в течение многих лет инвестировал в ИИ, чтобы внезапно оказаться далеко позади — когда OpenAI выпустила ChatGPT в 2022 году. Глава компании немедленно начал подгонять подчиненных, требуя скорого релиза собственного чат-бота. Но разработчики Meta столкнулись с тем же препятствием, что и ее конкуренты: им не хватало данных. Цукербергу доложили, что аналог ChatGPT не появится, пока не получится достать больше данных.

Хотя Meta управляет гигантскими социальными сетями, такими как Facebook и Instagram, в ее распоряжении не так много информации. Пользователи не стремятся делиться данными, удаляют свои предыдущие публикации, а контент соцсетей в большинстве случаев состоит из коротких постов, а не длинных высококачественных эссе. Также Meta сама себя ограничила изменениями конфиденциальности, которые она ввела после скандала 2018 года, связанного с аналитической фирмой Cambridge Analytica.

Тогда возникла идея покупки издательства Simon & Schuster. Эта сделка сделала бы доступными произведения авторов — качественные объемные тексты идеально подходят для обучения ИИ. Компания была готова использовать опубликованные романы, даже если это спровоцировало бы судебные иски со стороны авторов. По мнению сотрудников Meta, переговоры о лицензиях с издателями, художниками, писателями и журналистами займут слишком много времени.

В Европе приняли первый в мире закон об ИИ. Что в него входит?

Один из участников бесконечных совещаний у Цукерберга вспоминает, что на вопрос о возможных проблем с авторским правом он услышал гробовое молчание менеджеров. Все были уверены, что раз OpenAI не обращает внимание на такие проблемы, то Meta может позволить себе то же самое.

Эти примеры иллюстрируют новое противостояние между ИИ-разработчиками и правообладателями. Любая онлайн-информация сегодня стала источником жизненной силы для искусственного интеллекта. Инновации в этой сфере напрямую зависят от достаточного количества данных для обучения. Их качество имеет решающее значение, поскольку поколения людей уже сделали всю работу: опубликованные книги и статьи были тщательно написаны и отредактированы профессионалами.

Долгое время интернет с такими ресурсами, как «Википедия» и Reddit, казался бездонным источником данным. Миллиарды пользователей постоянно создают огромное количество контента: поисковые запросы, сообщения, фотографии и видео в социальных сетях. Но Google и Meta были в значительной степени ограничены законами о конфиденциальности и собственной пользовательской политикой. Внезапный ажиотаж вокруг ChatGPT и поведение OpenAI спровоцировало конкурентов действовать агрессивнее.

Чат-боты уничтожат Google? Почему пока рано говорить о победе ИИ

По мнению экспертов, единственный путь развития ИИ — это обучение моделей на больших объемах данных без необходимости их лицензирования. «Объем необходимых данных настолько огромен, что даже коллективное лицензирование в действительности не сможет работать», — считает юрист венчурного фонда Andreessen Horowitz Сай Дэмл. По оценкам исследовательского института Epoch, качественные данные для обучения ИИ закончатся уже в 2026 году: разработчики используют их быстрее, чем они появляются.

Кажется, мнение правообладателей никого не интересует. Среди авторов растет недовольство — и создатели контента забрасывают стартапы исками. Например, в прошлом году The New York Times подала в суд на OpenAI и Microsoft за использование новостных статей, защищенных авторским правом. В ответ компании заявили, что придерживались принципа «добросовестного использования», который разрешен законом. Звучит это не очень убедительно, и другие издатели спешно закрывают доступ к своим ресурсам для ИИ-алгоритмов.

Более 10 тысяч правообладателей обратились в Бюро авторского права — американских регулятор копирайта — по поводу использования произведений искусственным интеллектом. Ведомство пообещало опубликовать руководство о том, как законодательство в сфере авторского права необходимо применять к ИИ. «Это крупнейшая кража в США. Точка», — так выразила актриса и режиссер Жюстин Бейтман общее мнение правообладателей.

OpenAI открыла доступ к ChatGPT без регистрации

О приближающейся катастрофе писал физик Джаред Каплан еще в 2020 году, когда опубликовал статью об искусственном интеллекте, ставшей ключевой для индустрии. Сегодня Каплан возглавляет научные исследования одного из главных игроков рынка — компании Anthropic. Его вывод был однозначным: чем больше данных будет для обучения большой языковой модели — тем лучше она будет работать. Этот принцип масштабирования можно назвать законом, поскольку он работает безотказно.

В 2020 году датасеты были по сегодняшним меркам крошечными: например, одна из популярных баз данных содержала всего 30 тысяч фотографий с сайта Flickr. Каплан открыл глаза разработчикам — и началась погоня за данными. Представленная уже в ноябре GPT-3 была обучена на 300 миллиардах токенов, которые по сути представляют фрагменты слов и другого контента. В 2022 году одна из моделей, созданных Google, использовала уже 1,4 триллиона токенов. Китайская модель Skywork, по словам создателей, обучена на 3,2 триллиона токенов. Модель PaLM 2 — на 3,6 триллиона.

Позицию разработчиков озвучил генеральный директор OpenAI Сэм Альтман, заявив, что компания будет использовать все возможные данные в интернете. Когда в 2021 году стартап отчаянно нуждался в данных для разработки GPT-4, сотрудники обсуждали возможность расшифровки подкастов, аудиокниг и видео. Руководство даже рассматривало вариант покупки других стартапов, которые успели обработать больший объем данных. Расшифровка роликов Youtube стало решением проблемы.

Теоретически выход все-таки есть — это создание «синтетической» информации с помощью самих ИИ-моделей. Другими словами, модели учатся на том, что сами генерируют.

У синтетических данных есть свой минус — это повышенный риск ошибок и искажений. Созданная самим ИИ, эта информация может только усиливать эффект «галлюцинаций», характерный для таких систем. «Данные, необходимые этим системам, подобны тропе через джунгли. Если они будут тренироваться только на синтетических данных, они могут заблудиться в джунглях», — рассказал Джефф Клун, бывший сотрудник OpenAI, который сейчас преподает информатику в Университете Британской Колумбии.

OpenAI придумала, как решить эту проблему. Новый подход основан на принципе машинного обучения: один ИИ будет генерировать синтетические данные, тогда как другой ИИ будет анализировать, насколько эта информация подходит для обучения. Мнения исследователей об эффективности такого метода разделились. Тем не менее Сэм Альтман уверен, что нехватка данных — лишь временная трудность. Впереди — релиз GPT-5, для которой уже не хватит никакого интернета.