Support us

«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Оставить комментарий
«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Предложенный подход сочетает генеративное моделирование награды (generative reward modeling, GRM) и самостоятельную критическую настройку (self-principled critique tuning, SPCT). Эта двойная стратегия призвана обеспечить LLM возможность предоставлять более качественные и быстрые ответы на общие запросы.

Метод позволяет обучать ИИ самостоятельно формулировать правила для оценки контента, а затем использовать эти правила для предоставления подробной критики. Вместо увеличения размера моделей в процессе обучения, что требует значительных вычислительных ресурсов и человеческих усилий, DeepSeek создает систему со встроенным «судьей», который оценивает ответы ИИ в режиме реального времени.

Этот «судья» сравнивает запланированный ответ ИИ как с его основными правилами, так и с тем, каким должен быть хороший ответ. В случае соответствия ИИ получает положительную обратную связь, что способствует его улучшению. DeepSeek называет эту систему «DeepSeek-GRM». Исследователи утверждают, что эта система поможет моделям превзойти по производительности таких конкурентов, как Google Gemini, Meta Llama и OpenAI GPT-4o.

DeepSeek планирует сделать свои передовые ИИ-модели доступными в качестве ПО с открытым исходным кодом, хотя конкретные сроки пока не объявлены. Ранее в марте DeepSeek сообщала об улучшенных способностях к рассуждению своей обновленной модели V3, а также об оптимизации веб-разработки и повышении уровня владения китайским языком.

В феврале компания также открыла доступ к пяти своим репозиториям кода. В январе DeepSeek представила новую версию своего ИИ — DeepSeek-R1, который, по заявлениям компании, был дешевле и не уступал по производительности ChatGPT от OpenAI.

OpenAI выпустит модель с открытыми весами чтобы догнать DeepSeek и Meta
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
По теме
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
DeepSeek улучшила навыки программирования модели V3
DeepSeek улучшила навыки программирования модели V3
По теме
DeepSeek улучшила навыки программирования модели V3
Tencent выпустила ИИ-модель T1 которая конкурирует с DeepSeek R1
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
По теме
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
Читайте также
Лукашенко приехал открывать производство ИИ-телевизоров на «Горизонт». Ему показали доильный аппарат
Лукашенко приехал открывать производство ИИ-телевизоров на «Горизонт». Ему показали доильный аппарат
Лукашенко приехал открывать производство ИИ-телевизоров на «Горизонт». Ему показали доильный аппарат
4 комментария
10 главных событий из мира ИТ — итоги 2025
10 главных событий из мира ИТ — итоги 2025
10 главных событий из мира ИТ — итоги 2025
Прошедший год стал переломным для ИТ: искусственный интеллект вышел за пределы лабораторий и начал менять рынок труда, инфраструктуру и медиа-среду. Мы вспомнили самые яркие и значимые события ИТ-индустрии, о которых писали в этом году.
Общайтесь с людьми, а не ботами: долгие сессии с ИИ могут вызвать психозы
Общайтесь с людьми, а не ботами: долгие сессии с ИИ могут вызвать психозы
Общайтесь с людьми, а не ботами: долгие сессии с ИИ могут вызвать психозы
2 комментария
«Покажите деньги»: технотренды 2026 года по версии венчурных фондов
«Покажите деньги»: технотренды 2026 года по версии венчурных фондов
«Покажите деньги»: технотренды 2026 года по версии венчурных фондов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.