Беларусь + FemTech = ❤️? Stork целится в миллион установок
Support us

Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Оставить комментарий
Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Группа исследователей из 14 университетов и некоммерческих организаций, включая MIT, Carnegie Mellon, Университет Торонто, Vector Institute и Allen Institute for AI, представила ИИ-модель, которая была создана исключительно на основе открытых данных и произведений в открытом доступе. Для этого они собрали 8-терабайтный датасет, в который вошли, среди прочего, 130 000 книг из Библиотеки Конгресса США.

Модель Comma v0.1 содержит 7 миллиардов параметров — столько же, сколько у Llama 2-7B от Meta, выпущенной в 2023 году. Производительность новой модели оказалась сопоставимой с Llama, но главное отличие заключается в том, что она стала этической альтернативой текущим индустриальным практикам.

Однако путь к созданию этой модели был крайне трудоемким. Многое из исходных данных не поддавалось машинному чтению, поэтому исследователям приходилось вручную аннотировать и проверять каждый фрагмент. «Автоматизированные инструменты помогали, но в итоге все делали люди», — объясняет исполнительный директор Eleuther AI Стелла Бидерман. Юридическая часть также осложняла задачу — команде пришлось уточнять лицензии для каждого используемого источника.

Несмотря на усилия, разработчики признают: полностью соперничать с крупнейшими ИИ-моделями пока невозможно, ведь доступный открытый контент — все еще редкость. Тем не менее, новая модель служит весомым аргументом в дебатах о допустимости массового копирования защищённого контента для обучения ИИ. OpenAI и Anthropic ранее утверждали, что без авторских данных создание современных моделей попросту невозможно. Это заявление теперь под вопросом: пусть новая альтернатива и менее мощная, но она существует.

Голливудские студии тайно используют ИИ опасаясь исков
Голливудские студии тайно используют ИИ, опасаясь исков
По теме
Голливудские студии тайно используют ИИ, опасаясь исков
Meta меняет наём: ИИ будет оценивать и кандидатов и интервьюеров
Meta меняет наём: ИИ будет оценивать и кандидатов, и интервьюеров
По теме
Meta меняет наём: ИИ будет оценивать и кандидатов, и интервьюеров
СЕО знают что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
СЕО знают, что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
По теме
СЕО знают, что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
Читайте также
CEO Google говорит, что с вайб-кодингом разрабатывать софт снова стало в кайф
CEO Google говорит, что с вайб-кодингом разрабатывать софт снова стало в кайф
CEO Google говорит, что с вайб-кодингом разрабатывать софт снова стало в кайф
Google урезала доступ к Pro-версиям Gemini 3 и Nano Banana, Alibaba делит клиентов по приоритету — компании страдают от популярности
Google урезала доступ к Pro-версиям Gemini 3 и Nano Banana, Alibaba делит клиентов по приоритету — компании страдают от популярности
Google урезала доступ к Pro-версиям Gemini 3 и Nano Banana, Alibaba делит клиентов по приоритету — компании страдают от популярности
ИИ уже сейчас может заменить 12% американских работников
ИИ уже сейчас может заменить 12% американских работников
ИИ уже сейчас может заменить 12% американских работников
2 комментария
Сооснователь OpenAI: главная стратегия развития ИИ исчерпала себя — нужно возвращаться к научным истокам
Сооснователь OpenAI: главная стратегия развития ИИ исчерпала себя — нужно возвращаться к научным истокам
Сооснователь OpenAI: главная стратегия развития ИИ исчерпала себя — нужно возвращаться к научным истокам

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.