Николай Чикишев world 7 июня 2025, 14:22

Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Оставить комментарий

Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Группа исследователей из 14 университетов и некоммерческих организаций, включая MIT, Carnegie Mellon, Университет Торонто, Vector Institute и Allen Institute for AI, представила ИИ-модель, которая была создана исключительно на основе открытых данных и произведений в открытом доступе. Для этого они собрали 8-терабайтный датасет, в который вошли, среди прочего, 130 000 книг из Библиотеки Конгресса США.

Модель Comma v0.1 содержит 7 миллиардов параметров — столько же, сколько у Llama 2-7B от Meta, выпущенной в 2023 году. Производительность новой модели оказалась сопоставимой с Llama, но главное отличие заключается в том, что она стала этической альтернативой текущим индустриальным практикам.

Однако путь к созданию этой модели был крайне трудоемким. Многое из исходных данных не поддавалось машинному чтению, поэтому исследователям приходилось вручную аннотировать и проверять каждый фрагмент. «Автоматизированные инструменты помогали, но в итоге все делали люди», — объясняет исполнительный директор Eleuther AI Стелла Бидерман. Юридическая часть также осложняла задачу — команде пришлось уточнять лицензии для каждого используемого источника.

Несмотря на усилия, разработчики признают: полностью соперничать с крупнейшими ИИ-моделями пока невозможно, ведь доступный открытый контент — все еще редкость. Тем не менее, новая модель служит весомым аргументом в дебатах о допустимости массового копирования защищённого контента для обучения ИИ. OpenAI и Anthropic ранее утверждали, что без авторских данных создание современных моделей попросту невозможно. Это заявление теперь под вопросом: пусть новая альтернатива и менее мощная, но она существует.