Николай Чикишев 6 лютага 2025, 15:30

Распрацоўшчыкі стварылі за $50 АІ-мадэль, якая канкуруе з OpenAI

Даследчыкі са Стэнфарда і Вашынгтонскага ўніверсітэта распрацавалі мадэль штучнага інтэлекту s1, здольную да разважання, усяго за $50. Гэтая мадэль, як сцвярджаецца, канкуруе з вядучымі мадэлямі, такімі як о1 ад OpenAI і R1 ад DeepSeek, у тэстах на матэматычныя і праграмныя навыкі.

6 каментарыяў

Распрацоўшчыкі стварылі за $50 АІ-мадэль, якая канкуруе з OpenAI

Даследчыкі са Стэнфарда і Вашынгтонскага ўніверсітэта распрацавалі мадэль штучнага інтэлекту s1, здольную да разважання, усяго за $50. Гэтая мадэль, як сцвярджаецца, канкуруе з вядучымі мадэлямі, такімі як о1 ад OpenAI і R1 ад DeepSeek, у тэстах на матэматычныя і праграмныя навыкі.

Каманда, якая распрацавала s1, выкарыстала гатовую базавую мадэль і дапрацавала яе з дапамогай дыстыляцыі, працэсу, які здабывае здольнасці да разважання з іншай АІ-мадэлі шляхам навучання на ейных адказах. Мадэль s1 была дыстыляваная з Gemini 2.0 Flash Thinking Experimental ад Google, гэты ж метад выкарыстоўвалі даследчыкі з Берклі для стварэння аналагічнай мадэлі за $450 у мінулым месяцы.

Для навучання s1 быў створаны набор даных усяго з 1000 пытанняў і адказаў з абгрунтаваннямі, атрыманымі ад Gemini. Навучанне заняло менш за 30 хвілін з выкарыстаннем 16 графічных працэсараў Nvidia H100, а агульны кошт склаў менш за $50. Паводле слоў Нікласа Мюнігхофа, даследчыка са Стэнфарда, які ўдзельнічаў у праекце, неабходную вылічальную магутнасць можна арандаваць прыкладна за $20.

Гэты прарыў выклікае пытанні пра камерцыялізацыю АІ-мадэляў. Калі невялікія групы могуць паўтарыць дарагія мадэлі з мінімальнымі інвестыцыямі, гэта ставіць пад сумнеў канцэпцыю патэнтаванай перавагі ў індустрыі АІ. OpenAI, напрыклад, абвінаваціла DeepSeek у неправамерным зборы даных са свайго API для мэт дыстыляцыі.

Мадэль s1 паказвае, што мадэлі разважання можна дыстыляваць з выкарыстаннем адносна невялікага набору даных з дапамогай кантраляванай тонкай налады (SFT). Гэты падыход з’яўляецца больш эканамічным метадам у параўнанні з буйнамаштабным навучаннем з падмацаваннем. SFT дазваляе АІ-мадэлям імітаваць пэўныя паводзіны ў наборы даных, дасягаючы высокай прадукцыйнасці разважанняў з меншымі выдаткамі.

Аднак эксперты сцвярджаюць, што, хоць метады дыстыляцыі могуць паўтараць існыя мадэлі, яны не абавязкова прывядуць да прарыўных дасягненняў у прадукцыйнасці АІ. Буйныя АІ-кампаніі, такія як Meta, Google і Microsoft, плануюць інвеставаць мільярды ў інфраструктуру АІ, але S1 дэманструе, як невялікія інавацыі пашыраюць межы магчымасцяў АІ. Мадэль s1, а таксама даныя і код для яе навучання, цяпер даступныя на GitHub.