Айцішнік напісаў першы беларускамоўны посткіберпанк-раман. Пра што?
Support us

«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Оставить комментарий
«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Предложенный подход сочетает генеративное моделирование награды (generative reward modeling, GRM) и самостоятельную критическую настройку (self-principled critique tuning, SPCT). Эта двойная стратегия призвана обеспечить LLM возможность предоставлять более качественные и быстрые ответы на общие запросы.

Метод позволяет обучать ИИ самостоятельно формулировать правила для оценки контента, а затем использовать эти правила для предоставления подробной критики. Вместо увеличения размера моделей в процессе обучения, что требует значительных вычислительных ресурсов и человеческих усилий, DeepSeek создает систему со встроенным «судьей», который оценивает ответы ИИ в режиме реального времени.

Этот «судья» сравнивает запланированный ответ ИИ как с его основными правилами, так и с тем, каким должен быть хороший ответ. В случае соответствия ИИ получает положительную обратную связь, что способствует его улучшению. DeepSeek называет эту систему «DeepSeek-GRM». Исследователи утверждают, что эта система поможет моделям превзойти по производительности таких конкурентов, как Google Gemini, Meta Llama и OpenAI GPT-4o.

DeepSeek планирует сделать свои передовые ИИ-модели доступными в качестве ПО с открытым исходным кодом, хотя конкретные сроки пока не объявлены. Ранее в марте DeepSeek сообщала об улучшенных способностях к рассуждению своей обновленной модели V3, а также об оптимизации веб-разработки и повышении уровня владения китайским языком.

В феврале компания также открыла доступ к пяти своим репозиториям кода. В январе DeepSeek представила новую версию своего ИИ — DeepSeek-R1, который, по заявлениям компании, был дешевле и не уступал по производительности ChatGPT от OpenAI.

OpenAI выпустит модель с открытыми весами чтобы догнать DeepSeek и Meta
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
По теме
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
DeepSeek улучшила навыки программирования модели V3
DeepSeek улучшила навыки программирования модели V3
По теме
DeepSeek улучшила навыки программирования модели V3
Tencent выпустила ИИ-модель T1 которая конкурирует с DeepSeek R1
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
По теме
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
Читайте также
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
1 комментарий
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Стартаперы назвали ИИ-компанию, которая провалится первой
Стартаперы назвали ИИ-компанию, которая провалится первой
Стартаперы назвали ИИ-компанию, которая провалится первой
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.