Інжынер прыдумаў, як плаціць за ШІ менш: ягоны інструмент выдаляе да 90% лішніх токенаў
Інжынер Netflix Тэджас Чопра распрацаваў інструмент Project Headroom, які сціскае кантэкст перад адпраўкай у моўную мадэль і за кошт гэтага дапамагае карыстальнікам эканоміць на ШІ-запытах.
Інжынер Netflix Тэджас Чопра распрацаваў інструмент Project Headroom, які сціскае кантэкст перад адпраўкай у моўную мадэль і за кошт гэтага дапамагае карыстальнікам эканоміць на ШІ-запытах.
Як піша The Register, праект не з’яўляецца афіцыйнай распрацоўкай Netflix, аднак ім ужо карыстаюцца некалькі каманд унутры кампаніі, а таксама вонкавыя распрацоўшчыкі.
Headroom працуе з кантэкстам, які адпраўляецца ў моўную мадэль: гісторыяй перапіскі, логамі, вынікамі працы інструментаў, файламі, дакументацыяй ды іншымі дадзенымі. Перад адпраўкай у LLM праграма сціскае гэты кантэкст і выдаляе з яго залішнюю інфармацыю. Паводле ацэнкі Чопры, да 90% токенаў у такіх данных могуць быць фактычна лішнімі для мадэлі.
Сам Чопра расказаў, што карыстальнікі Headroom ужо зэканомілі каля $700 тысяч. Паводле яго, дзякуючы інструменту ў іх вызвалілася каля 200 мільярдаў токенаў, якія цяпер можна выкарыстоўваць для іншых задач. Праект быў выпушчаны ў студзені, цяпер знаходзіцца на ранняй версіі v0.22, але ўжо набраў каля 2 тысяч зорак на GitHub і больш за 120 форкаў.
Ідэя праекта з’явілася пасля таго, як Чопра атрымаў рахунак на $287 за выкарыстанне Claude Sonnet у хатнім праекце. Гаворка ішла пра тыповыя задачы: адладку, рэфактарынг, працу з MCP-інструментамі і запыты да базы дадзеных. Пасля аналізу выдаткаў інжынер высветліў, што значная частка токенаў сыходзіць не на ягоныя ўласныя інструкцыі, а на машыннае «смецце»: залішне падрабязныя JSON-схемы, укладзеныя шаблоны ў API-адказах, паўтаральныя калонкі баз дадзеных і іншую службовую інфармацыю.
Чопра апісвае такія даныя як «сціскальную інфармацыю, якая маскіруецца пад тэкст». Паводле яго, праблема асабліва заўважная ў агентных сістэмах, дзе мадэль атрымлівае не толькі карыстальніцкі запыт, але і вялікую колькасць тэхнічнага кантэксту. Чым больш дадзеных адпраўляецца ў кантэкстнае акно, тым вышэй кошт запыту і тым большая рызыка, што мадэль пачне горш працаваць праз перагрузку інфармацыяй.
Кампанія выпадкова патраціла $500 млн на Claude за месяц — СМІ
Headroom запускаецца лакальна на камп’ютары распрацоўшчыка як проксі і убудоўваецца ў працоўны працэс праз камандны радок. Інструмент вызначае тып уваходных дадзеных і адпраўляе іх у розныя кампрэсары. Для кода выкарыстоўваецца кампрэсар на аснове Abstract Syntax Tree, для JSON і вэб-структур — асобныя механізмы, якія выдаляюць лішнюю службовую інфармацыю.
Адна з ключавых асаблівасцяў Headroom — зваротны сціск. Інструмент не проста выкідвае частку кантэксту, а пакідае маркеры, па якіх мадэль пры неабходнасці можа запытаць зыходныя дадзеныя. Арыгінальны кантэкст захоўваецца лакальна — напрыклад, у Redis або SQLite. Гэта дазваляе скарачаць кошт запытаў, не губляючы доступ да поўнай інфармацыі.
Стваральнік таксама звяртае ўвагу на праблему кэша. Калі ў сістэмным промпце або іншым паўтаральным кантэксце кожны раз мяняецца дата, UUID або іншы невялікі фрагмент, правайдар ШІ можа не распазнаць ужо закэшаваныя дадзеныя і будзе нанова апрацоўваць увесь кантэкст. Гэта павялічвае выдаткі, нават калі большая частка перадаванай інфармацыі фактычна не змянілася.
Паводле распрацоўшчыка, Headroom асабліва добра працуе з серверными логамі, вывадам MCP-інструментаў, вынікамі запытаў да баз дадзеных і дрэвамі файлаў. У такіх данных шмат паўтаральных схем, метаданых і тэхнічных элементаў. Напрыклад, у серверных логах, паводле ацэнкі праекта, можна адкінуць да 90% лішняга кантэксту, а ў JSON-вывадзе MCP-інструментаў — каля 70%.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.