Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Оставить комментарий
Учёные доказали: ИИ можно обучить без авторских текстов — но это крайне сложно

Новое исследование опровергает ключевой аргумент крупнейших компаний в сфере искусственного интеллекта: модели ИИ действительно можно обучать без использования материалов, защищенных авторским правом, хотя это требует титанических усилий.

Группа исследователей из 14 университетов и некоммерческих организаций, включая MIT, Carnegie Mellon, Университет Торонто, Vector Institute и Allen Institute for AI, представила ИИ-модель, которая была создана исключительно на основе открытых данных и произведений в открытом доступе. Для этого они собрали 8-терабайтный датасет, в который вошли, среди прочего, 130 000 книг из Библиотеки Конгресса США.

Модель Comma v0.1 содержит 7 миллиардов параметров — столько же, сколько у Llama 2-7B от Meta, выпущенной в 2023 году. Производительность новой модели оказалась сопоставимой с Llama, но главное отличие заключается в том, что она стала этической альтернативой текущим индустриальным практикам.

Однако путь к созданию этой модели был крайне трудоемким. Многое из исходных данных не поддавалось машинному чтению, поэтому исследователям приходилось вручную аннотировать и проверять каждый фрагмент. «Автоматизированные инструменты помогали, но в итоге все делали люди», — объясняет исполнительный директор Eleuther AI Стелла Бидерман. Юридическая часть также осложняла задачу — команде пришлось уточнять лицензии для каждого используемого источника.

Несмотря на усилия, разработчики признают: полностью соперничать с крупнейшими ИИ-моделями пока невозможно, ведь доступный открытый контент — все еще редкость. Тем не менее, новая модель служит весомым аргументом в дебатах о допустимости массового копирования защищённого контента для обучения ИИ. OpenAI и Anthropic ранее утверждали, что без авторских данных создание современных моделей попросту невозможно. Это заявление теперь под вопросом: пусть новая альтернатива и менее мощная, но она существует.

Голливудские студии тайно используют ИИ опасаясь исков
Голливудские студии тайно используют ИИ, опасаясь исков
По теме
Голливудские студии тайно используют ИИ, опасаясь исков
Meta меняет наём: ИИ будет оценивать и кандидатов и интервьюеров
Meta меняет наём: ИИ будет оценивать и кандидатов, и интервьюеров
По теме
Meta меняет наём: ИИ будет оценивать и кандидатов, и интервьюеров
СЕО знают что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
СЕО знают, что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
По теме
СЕО знают, что будут увольнять из-за ИИ, но всем врут — софтверные инвесторы
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Думали, что «ИИ-пузырь» один? Оказывается, их целых три
Думали, что «ИИ-пузырь» один? Оказывается, их целых три
Думали, что «ИИ-пузырь» один? Оказывается, их целых три
Школьные ИИ-системы массово арестовывают детей по ошибке
Школьные ИИ-системы массово арестовывают детей по ошибке
Школьные ИИ-системы массово арестовывают детей по ошибке
Писатель убедил ИИ Google, что его кот говорит по-китайски
Писатель убедил ИИ Google, что его кот говорит по-китайски
Писатель убедил ИИ Google, что его кот говорит по-китайски
Экс-исследователь OpenAI: Google догнала нас, потому что мы споткнулись
Экс-исследователь OpenAI: Google догнала нас, потому что мы споткнулись
Экс-исследователь OpenAI: Google догнала нас, потому что мы споткнулись
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.