Support us

Любой желающий теперь может обучить «рассуждающую» модель — всего за $450

Группа исследователей NovaSky из Калифорнийского университета в Беркли выпустила «рассуждающую» ИИ-модель Sky-T1-32B-Preview, которая на ряде бенчмарков сопоставима с ранней версией o1 от OpenAI. Это полностью опенсорсная модель в том смысле, что её можно воссоздать с нуля: разработчики выложили в открытый доступ обучающий датасет Sky-T1 и необходимый для тренировки код, пишет TechCrunch.

Оставить комментарий
Любой желающий теперь может обучить «рассуждающую» модель — всего за $450

Группа исследователей NovaSky из Калифорнийского университета в Беркли выпустила «рассуждающую» ИИ-модель Sky-T1-32B-Preview, которая на ряде бенчмарков сопоставима с ранней версией o1 от OpenAI. Это полностью опенсорсная модель в том смысле, что её можно воссоздать с нуля: разработчики выложили в открытый доступ обучающий датасет Sky-T1 и необходимый для тренировки код, пишет TechCrunch.

Это сделает создание мыслящих ИИ-моделей проще и дешевле. По словам исследователей, на обучение Sky-T1 было потрачено меньше $450. Обычно тренировка модели с аналогичной производительностью стоит миллионы долларов. Снижению затрат способствовало использование для обучения синтетических данных — то есть сгенерированных другими моделями. Для сравнения, разработка модели Palmyra X 004, которая была недавно выпущена ИИ-компанией Writer и обучалась практически полностью на таких данных, обошлась в $700 тысяч.

Рассуждающие модели способны проверять сами себя в ходе подготовки ответа на запрос. Ответ получается качественнее, хотя и занимает немного — на несколько секунд или минут — дольше, чем у обычных моделей. А ещё они более надёжны в таких сферах, как математика, физика и других науках.

Обучающие данные генерировала другая рассуждающая модель QwQ-32B-Preview китайской Alibaba, после этого их обрабатывала GPT-4o-mini. Для обучения Sky-T1 с её 32 млн параметров потребовалось 19 часов и 8 графических процессоров Nvidia H100.

В NovaSky планируют создать другие опенсорсные модели с улучшенной способностью к рассуждению и более высокой эффективностью и точностью.

Instagram начал показывать пользователям рекламу с их лицами
Instagram начал показывать пользователям рекламу с их лицами
По теме
Instagram начал показывать пользователям рекламу с их лицами
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
По теме
Хочется плакать: у пользователя Reddit сестра не может сделать элементарное д/з без ChatGPT. Реакция родителей ещё печальнее
Читайте также
«Вы обязаны использовать ИИ? У нас такого нет»: президент Anthropic — о токенмаксинге
«Вы обязаны использовать ИИ? У нас такого нет»: президент Anthropic — о токенмаксинге
«Вы обязаны использовать ИИ? У нас такого нет»: президент Anthropic — о токенмаксинге
ИИ не приговор: топ-инженер Google объяснил, кого на самом деле из разрабов заменяет технология
ИИ не приговор: топ-инженер Google объяснил, кого на самом деле из разрабов заменяет технология
ИИ не приговор: топ-инженер Google объяснил, кого на самом деле из разрабов заменяет технология
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
1 комментарий
Почти 40 000 в месяц: в техсекторе США — крупнейшая волна увольнений за 2 года
Почти 40 000 в месяц: в техсекторе США — крупнейшая волна увольнений за 2 года
Почти 40 000 в месяц: в техсекторе США — крупнейшая волна увольнений за 2 года
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.