Дапамажыце dev.by 🤍
Падтрымаць

Навукоўцы «адразаюць» у вялікіх ШІ-мадэляў усё лішняе і ствараюць карысныя міні-версіі

Сёння навукоўцы і інжынеры ўсё больш актыўна звяртаюць увагу на стварэнне малых моўных мадэляў, здольных выконваць спецыялізаваныя задачы пры значна меншых выдатках на вылічэнні. Адным з ключавых метадаў, які дазваляе дасягнуць такой эфектыўнасці, з’яўляецца «абразанне» нейрасетак.

1 каментарый
Навукоўцы «адразаюць» у вялікіх ШІ-мадэляў усё лішняе і ствараюць карысныя міні-версіі

Сёння навукоўцы і інжынеры ўсё больш актыўна звяртаюць увагу на стварэнне малых моўных мадэляў, здольных выконваць спецыялізаваныя задачы пры значна меншых выдатках на вылічэнні. Адным з ключавых метадаў, які дазваляе дасягнуць такой эфектыўнасці, з’яўляецца «абразанне» нейрасетак.

Сучасныя вялікія моўныя мадэлі выкарыстоўваюць сотні мільярдаў параметраў. Дзякуючы гэтаму яны могуць выяўляць складаныя заканамернасці ў велізарнай плыні дадзеных, што дазваляе ім вырашаць шырокі спектр задач з высокай дакладнасцю. Аднак менавіта гэты маштаб прыводзіць да вялікіх выдаткаў на навучанне і эксплуатацыю.

Каб вырашыць праблему выдаткаў і энергаэфектыўнасці, вядучыя кампаніі, сярод якіх IBM, Google, Microsoft і OpenAI, пачалі распрацоўваць малыя моўныя мадэлі. Такія мадэлі, звычайна да 10 мільярдаў параметраў, дэманструюць выдатныя вынікі ў вузкаскіраваных аплікацыях. Яны здольныя выконваць задачы кшталту рэзюмавання размоў, адказу на спецыфічныя пытанні ў медыцынскіх чат-ботах або збору дадзеных у смарт-прыладах.

Даследчыкі прапанавалі адзін з найбольш перспектыўных падыходаў да стварэння кампактных мадэляў — метад «абразання» нейрасетак. Гэты падыход прадугледжвае выдаленне лішніх або неэфектыўных сувязяў у вялікай мадэлі без істотнай страты прадукцыйнасці. Навукоўцаў натхніла праца чалавечага мозгу, у якім з узростам адбываецца натуральная рэдукцыя сінаптычных сувязяў, што дазваляе аптымізаваць нейронавыя сеткі для больш эфектыўнай працы.

У 1989 годзе вядомы камп’ютарны навуковец Ян Лекун, які цяпер супрацоўнічае з Meta, прапанаваў метад «аптымальнага выдалення сінапсаў» («optimal brain damage»). Яго даследаванні паказалі, што можна выдаліць да 90 % параметраў навучанай нейрасеткі, захаваўшы пры гэтым яе функцыянальнасць. Менавіта гэтая ідэя легла ў аснову сучасных падыходаў да абразання нейрасетак, што дазваляе пераходзіць ад грувасткіх мадэляў да кампактных і спецыялізаваных рашэнняў.

ШІ-мадэлям больш падабаецца працаваць з iOS чым з Android. Нават мадэлям Google
ШІ-мадэлям больш падабаецца працаваць з iOS, чым з Android. Нават мадэлям Google
Па тэме
ШІ-мадэлям больш падабаецца працаваць з iOS, чым з Android. Нават мадэлям Google
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ 
Па тэме
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Яна Пильник
Яна Пильник Дрессировщик программистов в Филиал БГУ ЦИРК
0

Обучат малые модели на результатах обучения больших