Аддзел навін 19 красавіка 2024, 11:30

Meta выпусціла Llama 3 — найлепшую сярод адкрытых мадэляў

Meta абнавіла фірмовую вялікую моўную мадэль: распрацоўшчыкі называюць Llama 3 самай здольнай на сённяшні дзень сярод мадэляў з адкрытым зыходным кодам. Пакуль паказана дзве версіі — Llama 3 8B і Llama 3 70B з 8 млрд і 70 млрд параметраў адпаведна, але ў далейшым сямейства папоўніцца яшчэ магутнейшымі асобнікамі.

Пакінуць каментарый

Meta абнавіла фірмовую вялікую моўную мадэль: распрацоўшчыкі называюць Llama 3 самай здольнай на сённяшні дзень сярод мадэляў з адкрытым зыходным кодам. Пакуль паказана дзве версіі — Llama 3 8B і Llama 3 70B з 8 млрд і 70 млрд параметраў адпаведна, але ў далейшым сямейства папоўніцца яшчэ магутнейшымі асобнікамі.

Паводле слоў кампаніі, мадэлі Llama 3 значна пераўзыходзяць прадукцыйнасцю мадэлі папярэдняга пакалення і з’яўляюцца аднымі з наймагутнейшых сярод даступных сёння генератыўных мадэляў. У пацверджанне Meta прыводзіць вынікі Llama 3 на папулярных АІ-бэнчмарках.

Llama 3 8B пераўзыходзіць свае аналагі, напрыклад, Mistral 7В ад Mistral і Gemma 7В ад Google прынамсі ў дзевяці тэстах: MMLU (на веды), ARC (здольнасць да навучання), DROP (аналіз фрагментаў тэксту), GPQA (пытанні па біялогіі, фізіцы і хіміі), HumanEval (тэст на генерацыю кода), GSM-8K і MATH (матэматычныя задачы), AGIEval (набор тэстаў на рашэнне задач) і BIG-Bench Hard (ацэнка разваг на аснове здаровага сэнсу).

Мадэль Llama 3 70B распрацоўшчыкі ставяць у адзін шэраг з іншымі флагманскімі генератыўнымі мадэлямі, такімі як Gemini 1.5 Pro ад Google — самай прасунутай у лінейцы. Llama 3 70B выявілася лепшай за Gemini 1.5 Pro ў тэстах MMLU, HumanEval і GSM-8K, хоць і саступіла перадавой мадэлі Claude 3 Opus ад Anthropic.

Meta сцвярджае, што новыя мадэлі больш «кіраваныя», радзей адмаўляюцца адказваць на пытанні і ў цэлым выдаюць дакладнейшую інфармацыю, у тым ліку ў некаторых навуковых галінах. Гэта звязана з тым, што для яе навучання выкарыстоўвалася велізарная колькасць даных: 15 трлн токенаў і 750 млрд слоў, што ў 7 разоў больш, чым у выпадку Llama 2. Кампанія запэўнівае, што даныя былі ўзятыя з агульнадаступных крыніц. Таксама датасэт Llama 3 утрымліваў у 4 разы больш кода, а 5% набору складалі даныя на 30 неанглійскіх мовах. Акрамя таго, выкарыстоўваліся сінтэтычныя даныя, атрыманыя ад іншых АІ-мадэляў.

Для барацьбы з неправамерным выкарыстаннем АІ у новае пакаленне мадэляў Llama ўбудавана некалькі пратаколаў бяспекі, такіх як Llama Guard і CybersecEval. Meta таксама выпусціла спецыяльны інструмент Code Shield для аналізу бяспекі кода адкрытых генератыўных мадэляў, які дазваляе выявіць уразлівасці.

Цяпер Meta навучае мадэль Llama 3 з 400 млрд параметраў. Яна зможа размаўляць на розных мовах і прымаць больш даных на ўваход, а таксама працаваць з выявамі.