Support us

Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Оставить комментарий
Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Группа исследователей из 14 университетов и некоммерческих организаций, включая MIT, Carnegie Mellon, Университет Торонто, Vector Institute и Allen Institute for AI, представила ИИ-модель, которая была создана исключительно на основе открытых данных и произведений в открытом доступе. Для этого они собрали 8-терабайтный датасет, в который вошли, среди прочего, 130 000 книг из Библиотеки Конгресса США.

Модель Comma v0.1 содержит 7 миллиардов параметров — столько же, сколько у Llama 2-7B от Meta, выпущенной в 2023 году. Производительность новой модели оказалась сопоставимой с Llama, но главное отличие заключается в том, что она стала этической альтернативой текущим индустриальным практикам.

Однако путь к созданию этой модели был крайне трудоемким. Многое из исходных данных не поддавалось машинному чтению, поэтому исследователям приходилось вручную аннотировать и проверять каждый фрагмент. «Автоматизированные инструменты помогали, но в итоге все делали люди», — объясняет исполнительный директор Eleuther AI Стелла Бидерман. Юридическая часть также осложняла задачу — команде пришлось уточнять лицензии для каждого используемого источника.

Несмотря на усилия, разработчики признают: полностью соперничать с крупнейшими ИИ-моделями пока невозможно, ведь доступный открытый контент — все еще редкость. Тем не менее, новая модель служит весомым аргументом в дебатах о допустимости массового копирования защищённого контента для обучения ИИ. OpenAI и Anthropic ранее утверждали, что без авторских данных создание современных моделей попросту невозможно. Это заявление теперь под вопросом: пусть новая альтернатива и менее мощная, но она существует.

Голливудские студии тайно используют ИИ опасаясь исков
Голливудские студии тайно используют ИИ, опасаясь исков
По теме
Голливудские студии тайно используют ИИ, опасаясь исков
Meta меняет наём: ИИ будет оценивать и кандидатов и интервьюеров
Meta меняет наём: ИИ будет оценивать и кандидатов, и интервьюеров
По теме
Meta меняет наём: ИИ будет оценивать и кандидатов, и интервьюеров
СЕО знают что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
СЕО знают, что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
По теме
СЕО знают, что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
Разработчик пиратского софта сдал коллегу, который «спиратил» его код
Разработчик пиратского софта сдал коллегу, который «спиратил» его код
Разработчик пиратского софта сдал коллегу, который «спиратил» его код

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.