OpenAI и Anthropic собирают данные с сайтов несмотря на запреты

Ведущие ИИ-стартапы игнорируют настройки медийных сайтов, которые призваны не допустить бесплатный сбор их контента для тренировки моделей, узнал Business Insider.

Оставить комментарий

Стартап TollBit выступает посредником между изданиями и ИИ-компаниями в сделках по лицензированию контента. Его специалисты выяснили, что некоторые ИИ-компании нарушают правила, и в прошлую пятницу уведомили об этом ряд крупных СМИ. Первым об этом сообщал Reuters, отмечая, что ИИ-компании в письме не назывались.

По словам двух осведомлённых источников BI, один из которых знаком с находками TollBit, речь идёт об OpenAI и Anthropic. Они либо игнорируют, ибо пытаются «обойти» файлы robots.txt, которые предотвращают автоматический сбор данных с сайтов. Хотя публично заявляли, что не нарушают их и другие настройки, блокирующие их краулеры GPTBot и ClaudeBot. В TollBit пришли к выводу, что это не так.

В OpenAI отказались от комментариев и сослались на майский блогпост, в котором говорится, что компания принимает настройки для веб-краулеров во внимание каждый раз при обучении новых моделей. В Anthropic не ответили на запрос.

Для создания передовых моделей нужно огромное множество качественных данных, которыми их владельцы не хотят делиться просто так. OpenAI уже заключила несколько сделок по лицензированию контента, например с медиаконцерном Axel Springer. Бюро авторского права США в этом году планирует ввести новшества в законодательство об авторском праве с учётом ИИ-реалий.

New York Times судится с OpenAI и Microsoft на миллиарды долларов за нарушение авторского права
По теме
New York Times судится с OpenAI и Microsoft на миллиарды долларов за нарушение авторского права
OpenAI обвинила New York Times во взломе ChatGPT в суде
По теме
OpenAI обвинила New York Times во взломе ChatGPT в суде
OpenAI: мы можем использовать произведения без разрешения авторов, потому что делаем это добросовестно
По теме
OpenAI: мы можем использовать произведения без разрешения авторов, потому что делаем это добросовестно
Дорогое удовольствие: данные для ИИ имеют такую цену, которую может позволить себе только бигтех
По теме
Дорогое удовольствие: данные для ИИ имеют такую цену, которую может позволить себе только бигтех

Читать на dev.by