Разработчики создали за $50 ИИ-модель, конкурирующую с OpenAI
Исследователи из Стэнфорда и Вашингтонского университета разработали модель искусственного интеллекта s1, способную к рассуждению, всего за $50. Эта модель, как утверждается, конкурирует с ведущими моделями, такими как o1 от OpenAI и R1 от DeepSeek, в тестах на математические и программные навыки.
Команда, разработавшая s1, использовала готовую базовую модель и доработала ее с помощью дистилляции, процесса, который извлекает способности к рассуждению из другой ИИ-модели путем обучения на ее ответах. Модель s1 была дистиллирована из Gemini 2.0 Flash Thinking Experimental от Google, этот же метод использовали исследователи из Беркли для создания аналогичной модели за $450 в прошлом месяце.
Для обучения s1 был создан набор данных всего из 1000 вопросов и ответов с обоснованиями, полученными от Gemini. Обучение заняло менее 30 минут с использованием 16 графических процессоров Nvidia H100, а общая стоимость составила менее $50. По словам Никласа Мюннигхоффа, исследователя из Стэнфорда, участвовавшего в проекте, необходимую вычислительную мощность можно арендовать примерно за $20.
Этот прорыв вызывает вопросы о коммерциализации ИИ-моделей. Если небольшие группы могут воспроизвести дорогие модели с минимальными инвестициями, это ставит под сомнение концепцию патентованного преимущества в индустрии ИИ. OpenAI, например, обвинила DeepSeek в неправомерном сборе данных из своего API для целей дистилляции.
Модель s1 показывает, что модели рассуждения можно дистиллировать с использованием относительно небольшого набора данных посредством контролируемой тонкой настройки (SFT). Этот подход является более экономичным методом по сравнению с крупномасштабным обучением с подкреплением. SFT позволяет ИИ-моделям имитировать определенное поведение в наборе данных, достигая высокой производительности рассуждений с меньшими затратами.
Тем не менее, эксперты утверждают, что, хотя методы дистилляции могут воспроизводить существующие модели, они не обязательно приведут к прорывным достижениям в производительности ИИ. Крупные ИИ-компании, такие как Meta, Google и Microsoft, планируют инвестировать миллиарды в инфраструктуру ИИ, но s1 демонстрирует, как небольшие инновации расширяют границы возможностей ИИ. Модель s1, а также данные и код для ее обучения, теперь доступны на GitHub.
Читать на dev.by