Аўтар вайб-кодынгу прадставіў nanochat — праект для навучання LLM за 4 гадзіны і $100
Сузаснавальнік OpenAI і аўтар тэрміна «вайб-кодынг» Андрэй Карпаты прадставіў свой новы опенсорсны праект nanochat — ён дазваляе стварыць і навучыць моўную мадэль літаральна «з нуля».
«Проста запускаеце воблачны GPU, выконваеце адзін скрыпт і ўжо праз 4 гадзіны можаце размаўляць з уласнай LLM у вэб-інтэрфейсе, як у ChatGPT», — напісаў Карпаты ў X.
Рэпазіторый nanochat змяшчае каля 8 тысяч радкоў кода. У адрозненне ад яго мінулага праекта nanoGPT, які засяроджаны толькі на папярэднім навучанні, новы ахоплівае ўвесь цыкл стварэння LLM, уключаючы навучанне такенізатара на Rust, папярэдняе навучанне мадэлі-трансформера на датасэце FineWeb, данавучанне на дыялогах і задачах з выбарам адказу, файнцьюнінг, інферэнс і збор метрык. Карыстальнік можа ўзаемадзейнічаць з мадэллю праз камандны радок або вэб-інтэрфейс, а сістэма аўтаматычна стварае справаздачу аб прадукцыйнасці.
Кошт і маштаб можна наладжваць: базавая версія, здольная весці дыялог, запатрабуе $100 і 4 гадзіны трэніроўкі на 8×H100 GPU. Пасля 12 гадзін трэніроўкі мадэль перавышае бенчмарк GPT-2 CORE, а за $1000 і 42 гадзіны можна атрымаць версію, якая вырашае простыя задачы па матэматыцы і праграмаванню.
Карпаты хоча стварыць «моцны, мінімалістычны і максімальна чытальны» базавы стэк, які можна будзе выкарыстоўваць як аснову для навучання і даследаванняў. nanochat можа вырасці ў паўнавартасны даследчы інструмент або бенчмарк, аналагічны nanoGPT, і стаць новым пунктам уваходу ў свет LLM для распрацоўшчыкаў і студэнтаў з усяго свету.
Читать на dev.by