💸 Больше никаких «я тебе скину позже». Как это работает
Support us

Любой желающий теперь может обучить «рассуждающую» модель — всего за $450

Группа исследователей NovaSky из Калифорнийского университета в Беркли выпустила «рассуждающую» ИИ-модель Sky-T1-32B-Preview, которая на ряде бенчмарков сопоставима с ранней версией o1 от OpenAI. Это полностью опенсорсная модель в том смысле, что её можно воссоздать с нуля: разработчики выложили в открытый доступ обучающий датасет Sky-T1 и необходимый для тренировки код, пишет TechCrunch.

Оставить комментарий
Любой желающий теперь может обучить «рассуждающую» модель — всего за $450

Группа исследователей NovaSky из Калифорнийского университета в Беркли выпустила «рассуждающую» ИИ-модель Sky-T1-32B-Preview, которая на ряде бенчмарков сопоставима с ранней версией o1 от OpenAI. Это полностью опенсорсная модель в том смысле, что её можно воссоздать с нуля: разработчики выложили в открытый доступ обучающий датасет Sky-T1 и необходимый для тренировки код, пишет TechCrunch.

Это сделает создание мыслящих ИИ-моделей проще и дешевле. По словам исследователей, на обучение Sky-T1 было потрачено меньше $450. Обычно тренировка модели с аналогичной производительностью стоит миллионы долларов. Снижению затрат способствовало использование для обучения синтетических данных — то есть сгенерированных другими моделями. Для сравнения, разработка модели Palmyra X 004, которая была недавно выпущена ИИ-компанией Writer и обучалась практически полностью на таких данных, обошлась в $700 тысяч.

Рассуждающие модели способны проверять сами себя в ходе подготовки ответа на запрос. Ответ получается качественнее, хотя и занимает немного — на несколько секунд или минут — дольше, чем у обычных моделей. А ещё они более надёжны в таких сферах, как математика, физика и других науках.

Обучающие данные генерировала другая рассуждающая модель QwQ-32B-Preview китайской Alibaba, после этого их обрабатывала GPT-4o-mini. Для обучения Sky-T1 с её 32 млн параметров потребовалось 19 часов и 8 графических процессоров Nvidia H100.

В NovaSky планируют создать другие опенсорсные модели с улучшенной способностью к рассуждению и более высокой эффективностью и точностью.

Instagram начал показывать пользователям рекламу с их лицами
Instagram начал показывать пользователям рекламу с их лицами
По теме
Instagram начал показывать пользователям рекламу с их лицами
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
По теме
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
Читайте также
«Сотни миллиардов»: гендиректор Microsoft AI о цене участия в ИИ-гонке
«Сотни миллиардов»: гендиректор Microsoft AI о цене участия в ИИ-гонке
«Сотни миллиардов»: гендиректор Microsoft AI о цене участия в ИИ-гонке
«Это не интеллект»: для ИИ предложили новый, более честный термин
«Это не интеллект»: для ИИ предложили новый, более честный термин
«Это не интеллект»: для ИИ предложили новый, более честный термин
2 комментария
CEO Microsoft требует от топов «работать ради ИИ» — или уволиться
CEO Microsoft требует от топов «работать ради ИИ» — или уволиться
CEO Microsoft требует от топов «работать ради ИИ» — или уволиться
1 комментарий
Бывшие инженеры ASML тайно построили в Китае установку для передовых чипов
Бывшие инженеры ASML тайно построили в Китае установку для передовых чипов
Бывшие инженеры ASML тайно построили в Китае установку для передовых чипов
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.