BA CompSci: CTRL+C, CTRL+V, pray(), compile(), cry(), repeat() ➡️ Get your degree
Support us

«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Оставить комментарий
«Сам себя не похвалишь — никто не похвалит»: в DeepSeek придумали новый способ самообучения моделей

Китайский стартап объединил усилия с исследователями из Университета Цинхуа для разработки инновационной технологии обучения ИИ. Новый метод значительного улучшает способности рассуждения у больших языковых моделей.

Предложенный подход сочетает генеративное моделирование награды (generative reward modeling, GRM) и самостоятельную критическую настройку (self-principled critique tuning, SPCT). Эта двойная стратегия призвана обеспечить LLM возможность предоставлять более качественные и быстрые ответы на общие запросы.

Метод позволяет обучать ИИ самостоятельно формулировать правила для оценки контента, а затем использовать эти правила для предоставления подробной критики. Вместо увеличения размера моделей в процессе обучения, что требует значительных вычислительных ресурсов и человеческих усилий, DeepSeek создает систему со встроенным «судьей», который оценивает ответы ИИ в режиме реального времени.

Этот «судья» сравнивает запланированный ответ ИИ как с его основными правилами, так и с тем, каким должен быть хороший ответ. В случае соответствия ИИ получает положительную обратную связь, что способствует его улучшению. DeepSeek называет эту систему «DeepSeek-GRM». Исследователи утверждают, что эта система поможет моделям превзойти по производительности таких конкурентов, как Google Gemini, Meta Llama и OpenAI GPT-4o.

DeepSeek планирует сделать свои передовые ИИ-модели доступными в качестве ПО с открытым исходным кодом, хотя конкретные сроки пока не объявлены. Ранее в марте DeepSeek сообщала об улучшенных способностях к рассуждению своей обновленной модели V3, а также об оптимизации веб-разработки и повышении уровня владения китайским языком.

В феврале компания также открыла доступ к пяти своим репозиториям кода. В январе DeepSeek представила новую версию своего ИИ — DeepSeek-R1, который, по заявлениям компании, был дешевле и не уступал по производительности ChatGPT от OpenAI.

OpenAI выпустит модель с открытыми весами чтобы догнать DeepSeek и Meta
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
По теме
OpenAI выпустит модель с открытыми весами, чтобы догнать DeepSeek и Meta
DeepSeek улучшила навыки программирования модели V3
DeepSeek улучшила навыки программирования модели V3
По теме
DeepSeek улучшила навыки программирования модели V3
Tencent выпустила ИИ-модель T1 которая конкурирует с DeepSeek R1
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
По теме
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.