Дапамажыце dev.by 🤍
Падтрымаць

Інжынер прыдумаў, як плаціць за ШІ менш: ягоны інструмент выдаляе да 90% лішніх токенаў

Інжынер Netflix Тэджас Чопра распрацаваў інструмент Project Headroom, які сціскае кантэкст перад адпраўкай у моўную мадэль і за кошт гэтага дапамагае карыстальнікам эканоміць на ШІ-запытах.

Пакінуць каментарый
Інжынер прыдумаў, як плаціць за ШІ менш: ягоны інструмент выдаляе да 90% лішніх токенаў

Інжынер Netflix Тэджас Чопра распрацаваў інструмент Project Headroom, які сціскае кантэкст перад адпраўкай у моўную мадэль і за кошт гэтага дапамагае карыстальнікам эканоміць на ШІ-запытах.

Як піша The Register, праект не з’яўляецца афіцыйнай распрацоўкай Netflix, аднак ім ужо карыстаюцца некалькі каманд унутры кампаніі, а таксама вонкавыя распрацоўшчыкі.

Headroom працуе з кантэкстам, які адпраўляецца ў моўную мадэль: гісторыяй перапіскі, логамі, вынікамі працы інструментаў, файламі, дакументацыяй ды іншымі дадзенымі. Перад адпраўкай у LLM праграма сціскае гэты кантэкст і выдаляе з яго залішнюю інфармацыю. Паводле ацэнкі Чопры, да 90% токенаў у такіх данных могуць быць фактычна лішнімі для мадэлі.

Сам Чопра расказаў, што карыстальнікі Headroom ужо зэканомілі каля $700 тысяч. Паводле яго, дзякуючы інструменту ў іх вызвалілася каля 200 мільярдаў токенаў, якія цяпер можна выкарыстоўваць для іншых задач. Праект быў выпушчаны ў студзені, цяпер знаходзіцца на ранняй версіі v0.22, але ўжо набраў каля 2 тысяч зорак на GitHub і больш за 120 форкаў.

Ідэя праекта з’явілася пасля таго, як Чопра атрымаў рахунак на $287 за выкарыстанне Claude Sonnet у хатнім праекце. Гаворка ішла пра тыповыя задачы: адладку, рэфактарынг, працу з MCP-інструментамі і запыты да базы дадзеных. Пасля аналізу выдаткаў інжынер высветліў, што значная частка токенаў сыходзіць не на ягоныя ўласныя інструкцыі, а на машыннае «смецце»: залішне падрабязныя JSON-схемы, укладзеныя шаблоны ў API-адказах, паўтаральныя калонкі баз дадзеных і іншую службовую інфармацыю.

Чопра апісвае такія даныя як «сціскальную інфармацыю, якая маскіруецца пад тэкст». Паводле яго, праблема асабліва заўважная ў агентных сістэмах, дзе мадэль атрымлівае не толькі карыстальніцкі запыт, але і вялікую колькасць тэхнічнага кантэксту. Чым больш дадзеных адпраўляецца ў кантэкстнае акно, тым вышэй кошт запыту і тым большая рызыка, што мадэль пачне горш працаваць праз перагрузку інфармацыяй.

Кампанія выпадкова патраціла $500 млн на Claude за месяц — СМІ
Кампанія выпадкова патраціла $500 млн на Claude за месяц — СМІ
Па тэме
Кампанія выпадкова патраціла $500 млн на Claude за месяц — СМІ

Headroom запускаецца лакальна на камп’ютары распрацоўшчыка як проксі і убудоўваецца ў працоўны працэс праз камандны радок. Інструмент вызначае тып уваходных дадзеных і адпраўляе іх у розныя кампрэсары. Для кода выкарыстоўваецца кампрэсар на аснове Abstract Syntax Tree, для JSON і вэб-структур — асобныя механізмы, якія выдаляюць лішнюю службовую інфармацыю.

Адна з ключавых асаблівасцяў Headroom — зваротны сціск. Інструмент не проста выкідвае частку кантэксту, а пакідае маркеры, па якіх мадэль пры неабходнасці можа запытаць зыходныя дадзеныя. Арыгінальны кантэкст захоўваецца лакальна — напрыклад, у Redis або SQLite. Гэта дазваляе скарачаць кошт запытаў, не губляючы доступ да поўнай інфармацыі.

Стваральнік таксама звяртае ўвагу на праблему кэша. Калі ў сістэмным промпце або іншым паўтаральным кантэксце кожны раз мяняецца дата, UUID або іншы невялікі фрагмент, правайдар ШІ можа не распазнаць ужо закэшаваныя дадзеныя і будзе нанова апрацоўваць увесь кантэкст. Гэта павялічвае выдаткі, нават калі большая частка перадаванай інфармацыі фактычна не змянілася.

Паводле распрацоўшчыка, Headroom асабліва добра працуе з серверными логамі, вывадам MCP-інструментаў, вынікамі запытаў да баз дадзеных і дрэвамі файлаў. У такіх данных шмат паўтаральных схем, метаданых і тэхнічных элементаў. Напрыклад, у серверных логах, паводле ацэнкі праекта, можна адкінуць да 90% лішняга кантэксту, а ў JSON-вывадзе MCP-інструментаў — каля 70%.

Canva дала 5000 супрацоўнікам тыдзень на вывучэнне ІІ — і прыйшла да нечаканых высноў
Canva дала 5000 супрацоўнікам тыдзень на вывучэнне ІІ — і прыйшла да нечаканых высноў
Па тэме
Canva дала 5000 супрацоўнікам тыдзень на вывучэнне ІІ — і прыйшла да нечаканых высноў
«Гэта жарт?»: новыя цэны GitHub Copilot раззлавалі распрацоўшчыкаў
«Гэта жарт?»: новыя цэны GitHub Copilot раззлавалі распрацоўшчыкаў
Па тэме
«Гэта жарт?»: новыя цэны GitHub Copilot раззлавалі распрацоўшчыкаў
«Яны кажуць гэта ўжо 20 гадоў»: прафесар MIT засумняваўся, што ІІ — сапраўдная прычына звальненняў у ІТ
«Яны кажуць гэта ўжо 20 гадоў»: прафесар MIT засумняваўся, што ІІ — сапраўдная прычына звальненняў у ІТ 
Па тэме
«Яны кажуць гэта ўжо 20 гадоў»: прафесар MIT засумняваўся, што ІІ — сапраўдная прычына звальненняў у ІТ
Чытайце таксама
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць
Распрацоўшчык прыдумаў спосаб зменшыць выдаткі на токены ў разы
Распрацоўшчык прыдумаў спосаб зменшыць выдаткі на токены ў разы
Распрацоўшчык прыдумаў спосаб зменшыць выдаткі на токены ў разы
«Усё стала значна горш»: супрацоўнікі разграбаюць «воркслоп» ад ШІ замест працы
«Усё стала значна горш»: супрацоўнікі разграбаюць «воркслоп» ад ШІ замест працы
«Усё стала значна горш»: супрацоўнікі разграбаюць «воркслоп» ад ШІ замест працы
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.