Навукоўцы «адразаюць» у вялікіх ШІ-мадэляў усё лішняе і ствараюць карысныя міні-версіі
Сёння навукоўцы і інжынеры ўсё больш актыўна звяртаюць увагу на стварэнне малых моўных мадэляў, здольных выконваць спецыялізаваныя задачы пры значна меншых выдатках на вылічэнні. Адным з ключавых метадаў, які дазваляе дасягнуць такой эфектыўнасці, з’яўляецца «абразанне» нейрасетак.
Сёння навукоўцы і інжынеры ўсё больш актыўна звяртаюць увагу на стварэнне малых моўных мадэляў, здольных выконваць спецыялізаваныя задачы пры значна меншых выдатках на вылічэнні. Адным з ключавых метадаў, які дазваляе дасягнуць такой эфектыўнасці, з’яўляецца «абразанне» нейрасетак.
Сучасныя вялікія моўныя мадэлі выкарыстоўваюць сотні мільярдаў параметраў. Дзякуючы гэтаму яны могуць выяўляць складаныя заканамернасці ў велізарнай плыні дадзеных, што дазваляе ім вырашаць шырокі спектр задач з высокай дакладнасцю. Аднак менавіта гэты маштаб прыводзіць да вялікіх выдаткаў на навучанне і эксплуатацыю.
Каб вырашыць праблему выдаткаў і энергаэфектыўнасці, вядучыя кампаніі, сярод якіх IBM, Google, Microsoft і OpenAI, пачалі распрацоўваць малыя моўныя мадэлі. Такія мадэлі, звычайна да 10 мільярдаў параметраў, дэманструюць выдатныя вынікі ў вузкаскіраваных аплікацыях. Яны здольныя выконваць задачы кшталту рэзюмавання размоў, адказу на спецыфічныя пытанні ў медыцынскіх чат-ботах або збору дадзеных у смарт-прыладах.
Даследчыкі прапанавалі адзін з найбольш перспектыўных падыходаў да стварэння кампактных мадэляў — метад «абразання» нейрасетак. Гэты падыход прадугледжвае выдаленне лішніх або неэфектыўных сувязяў у вялікай мадэлі без істотнай страты прадукцыйнасці. Навукоўцаў натхніла праца чалавечага мозгу, у якім з узростам адбываецца натуральная рэдукцыя сінаптычных сувязяў, што дазваляе аптымізаваць нейронавыя сеткі для больш эфектыўнай працы.
У 1989 годзе вядомы камп’ютарны навуковец Ян Лекун, які цяпер супрацоўнічае з Meta, прапанаваў метад «аптымальнага выдалення сінапсаў» («optimal brain damage»). Яго даследаванні паказалі, што можна выдаліць да 90 % параметраў навучанай нейрасеткі, захаваўшы пры гэтым яе функцыянальнасць. Менавіта гэтая ідэя легла ў аснову сучасных падыходаў да абразання нейрасетак, што дазваляе пераходзіць ад грувасткіх мадэляў да кампактных і спецыялізаваных рашэнняў.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Обучат малые модели на результатах обучения больших