🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Оставить комментарий
«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Предложенный подход сочетает генеративное моделирование награды (generative reward modeling, GRM) и самостоятельную критическую настройку (self-principled critique tuning, SPCT). Эта двойная стратегия призвана обеспечить LLM возможность предоставлять более качественные и быстрые ответы на общие запросы.

Метод позволяет обучать ИИ самостоятельно формулировать правила для оценки контента, а затем использовать эти правила для предоставления подробной критики. Вместо увеличения размера моделей в процессе обучения, что требует значительных вычислительных ресурсов и человеческих усилий, DeepSeek создает систему со встроенным «судьей», который оценивает ответы ИИ в режиме реального времени.

Этот «судья» сравнивает запланированный ответ ИИ как с его основными правилами, так и с тем, каким должен быть хороший ответ. В случае соответствия ИИ получает положительную обратную связь, что способствует его улучшению. DeepSeek называет эту систему «DeepSeek-GRM». Исследователи утверждают, что эта система поможет моделям превзойти по производительности таких конкурентов, как Google Gemini, Meta Llama и OpenAI GPT-4o.

DeepSeek планирует сделать свои передовые ИИ-модели доступными в качестве ПО с открытым исходным кодом, хотя конкретные сроки пока не объявлены. Ранее в марте DeepSeek сообщала об улучшенных способностях к рассуждению своей обновленной модели V3, а также об оптимизации веб-разработки и повышении уровня владения китайским языком.

В феврале компания также открыла доступ к пяти своим репозиториям кода. В январе DeepSeek представила новую версию своего ИИ — DeepSeek-R1, который, по заявлениям компании, был дешевле и не уступал по производительности ChatGPT от OpenAI.

OpenAI выпустит модель с открытыми весами чтобы догнать DeepSeek и Meta
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
По теме
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
DeepSeek улучшила навыки программирования модели V3
DeepSeek улучшила навыки программирования модели V3
По теме
DeepSeek улучшила навыки программирования модели V3
Tencent выпустила ИИ-модель T1 которая конкурирует с DeepSeek R1
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
По теме
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
«Эти две группы не понимают друг друга»: почему мнения о возможностях ИИ так расходятся
«Эти две группы не понимают друг друга»: почему мнения о возможностях ИИ так расходятся
«Эти две группы не понимают друг друга»: почему мнения о возможностях ИИ так расходятся
«Хватит паниковать»: эксперт призвал не преувеличивать угрозу ИИ для рынка труда
«Хватит паниковать»: эксперт призвал не преувеличивать угрозу ИИ для рынка труда
«Хватит паниковать»: эксперт призвал не преувеличивать угрозу ИИ для рынка труда
3 комментария
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.