Какая ирония: OpenAI нашла свидетельства, что DeepSeek обучал свой ИИ на её моделях
OpenAI обвиняет китайский стартап DeepSeek, который на этой неделе переполошил Кремниевую долину и обвалил компании разных стран, в том, что он тренировал свои дешёвые модели на её данных. О том, что разработчица ChatGPT нашла подтверждения этому, сообщает Financial Times.
Bloomberg ранее сообщал, что Microsoft заподозрила, что стартап использовал API OpenAI для интеграции её моделей в свои модели. Исследователи редмондской компании обнаружили, что через связанные с DeepSeek аккаунты разработчиков в конце 2024 года утекали огромные объёмы данных. «Царь» Дональда Трампа по вопросам ИИ Дэвид Сакс допустил, что имела место кража интеллектуальной собственности.
Теперь OpenAI нашла подтверждение тому, что DeepSeek применял метод «дистилляции», когда ИИ-модели обучают на данных, извлечённых из других, более мощных моделей. Это эффективный способ обучить менее крупные модели дешевле тех $100+ млн, которые OpenAI потратила на тренировку GPT-4.
OpenAI разрешает сторонним разработчикам интегрировать свои модели в их собственные приложения через API, но применение дистилляции для создания конкурирующих моделей нарушает условия пользования OpenAI. Какие именно свидетельства злоупотреблений были найдены со стороны DeepSeek, компания не уточняет. Она отказалась от комментариев изданию.
Ситуация сложилась довольно ироничная, отмечает The Verge. OpenAI для создания GPT собирала данные со всея интернета — в том числе материалы, защищённые авторским правом, без разрешения правообладателей. За что получила от них многочисленные иски.
Читать на dev.by