🚀 Идем на ежегодный Cloud Security TechSpot в Варшаве
Support us

«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Оставить комментарий
«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Предложенный подход сочетает генеративное моделирование награды (generative reward modeling, GRM) и самостоятельную критическую настройку (self-principled critique tuning, SPCT). Эта двойная стратегия призвана обеспечить LLM возможность предоставлять более качественные и быстрые ответы на общие запросы.

Метод позволяет обучать ИИ самостоятельно формулировать правила для оценки контента, а затем использовать эти правила для предоставления подробной критики. Вместо увеличения размера моделей в процессе обучения, что требует значительных вычислительных ресурсов и человеческих усилий, DeepSeek создает систему со встроенным «судьей», который оценивает ответы ИИ в режиме реального времени.

Этот «судья» сравнивает запланированный ответ ИИ как с его основными правилами, так и с тем, каким должен быть хороший ответ. В случае соответствия ИИ получает положительную обратную связь, что способствует его улучшению. DeepSeek называет эту систему «DeepSeek-GRM». Исследователи утверждают, что эта система поможет моделям превзойти по производительности таких конкурентов, как Google Gemini, Meta Llama и OpenAI GPT-4o.

DeepSeek планирует сделать свои передовые ИИ-модели доступными в качестве ПО с открытым исходным кодом, хотя конкретные сроки пока не объявлены. Ранее в марте DeepSeek сообщала об улучшенных способностях к рассуждению своей обновленной модели V3, а также об оптимизации веб-разработки и повышении уровня владения китайским языком.

В феврале компания также открыла доступ к пяти своим репозиториям кода. В январе DeepSeek представила новую версию своего ИИ — DeepSeek-R1, который, по заявлениям компании, был дешевле и не уступал по производительности ChatGPT от OpenAI.

OpenAI выпустит модель с открытыми весами чтобы догнать DeepSeek и Meta
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
По теме
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
DeepSeek улучшила навыки программирования модели V3
DeepSeek улучшила навыки программирования модели V3
По теме
DeepSeek улучшила навыки программирования модели V3
Tencent выпустила ИИ-модель T1 которая конкурирует с DeepSeek R1
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
По теме
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
Читайте также
«Перепрошивка всего бизнеса»: CEO Microsoft дал совет гендиректорам на эпоху ИИ
«Перепрошивка всего бизнеса»: CEO Microsoft дал совет гендиректорам на эпоху ИИ
«Перепрошивка всего бизнеса»: CEO Microsoft дал совет гендиректорам на эпоху ИИ
Разработка ПО победила в списке профессий, которые сильнее всего изменит генеративный ИИ
Разработка ПО победила в списке профессий, которые сильнее всего изменит генеративный ИИ
Разработка ПО победила в списке профессий, которые сильнее всего изменит генеративный ИИ
Беларусам будут лечить зубы с помощью ИИ
Беларусам будут лечить зубы с помощью ИИ
Беларусам будут лечить зубы с помощью ИИ
ИИ заставляет людей думать, что они умнее, чем есть на самом деле
ИИ заставляет людей думать, что они умнее, чем есть на самом деле
ИИ заставляет людей думать, что они умнее, чем есть на самом деле

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.