🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Любой желающий теперь может обучить «рассуждающую» модель — всего за $450

Группа исследователей NovaSky из Калифорнийского университета в Беркли выпустила «рассуждающую» ИИ-модель Sky-T1-32B-Preview, которая на ряде бенчмарков сопоставима с ранней версией o1 от OpenAI. Это полностью опенсорсная модель в том смысле, что её можно воссоздать с нуля: разработчики выложили в открытый доступ обучающий датасет Sky-T1 и необходимый для тренировки код, пишет TechCrunch.

Оставить комментарий
Любой желающий теперь может обучить «рассуждающую» модель — всего за $450

Группа исследователей NovaSky из Калифорнийского университета в Беркли выпустила «рассуждающую» ИИ-модель Sky-T1-32B-Preview, которая на ряде бенчмарков сопоставима с ранней версией o1 от OpenAI. Это полностью опенсорсная модель в том смысле, что её можно воссоздать с нуля: разработчики выложили в открытый доступ обучающий датасет Sky-T1 и необходимый для тренировки код, пишет TechCrunch.

Это сделает создание мыслящих ИИ-моделей проще и дешевле. По словам исследователей, на обучение Sky-T1 было потрачено меньше $450. Обычно тренировка модели с аналогичной производительностью стоит миллионы долларов. Снижению затрат способствовало использование для обучения синтетических данных — то есть сгенерированных другими моделями. Для сравнения, разработка модели Palmyra X 004, которая была недавно выпущена ИИ-компанией Writer и обучалась практически полностью на таких данных, обошлась в $700 тысяч.

Рассуждающие модели способны проверять сами себя в ходе подготовки ответа на запрос. Ответ получается качественнее, хотя и занимает немного — на несколько секунд или минут — дольше, чем у обычных моделей. А ещё они более надёжны в таких сферах, как математика, физика и других науках.

Обучающие данные генерировала другая рассуждающая модель QwQ-32B-Preview китайской Alibaba, после этого их обрабатывала GPT-4o-mini. Для обучения Sky-T1 с её 32 млн параметров потребовалось 19 часов и 8 графических процессоров Nvidia H100.

В NovaSky планируют создать другие опенсорсные модели с улучшенной способностью к рассуждению и более высокой эффективностью и точностью.

Instagram начал показывать пользователям рекламу с их лицами
Instagram начал показывать пользователям рекламу с их лицами
По теме
Instagram начал показывать пользователям рекламу с их лицами
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
По теме
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
«Трансатлантический альянс»: Cohere покупает Aleph Alpha, чтобы конкурировать с OpenAI и Google
«Трансатлантический альянс»: Cohere покупает Aleph Alpha, чтобы конкурировать с OpenAI и Google
«Трансатлантический альянс»: Cohere покупает Aleph Alpha, чтобы конкурировать с OpenAI и Google
«Это когнитивное ядерное оружие»: стартапер призвала ввести налог на вред от ИИ
«Это когнитивное ядерное оружие»: стартапер призвала ввести налог на вред от ИИ
«Это когнитивное ядерное оружие»: стартапер призвала ввести налог на вред от ИИ
2 комментария
DeepSeek представила новую ИИ-модель — почти уровня OpenAI и Google
DeepSeek представила новую ИИ-модель — почти уровня OpenAI и Google
DeepSeek представила новую ИИ-модель — почти уровня OpenAI и Google
1 комментарий
Разработчики говорят, что следить за ИИ стало второй работой
Разработчики говорят, что следить за ИИ стало второй работой
Разработчики говорят, что следить за ИИ стало второй работой

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.