Инженер придумал, как платить за ИИ меньше: его инструмент удаляет до 90% лишних токенов
Инженер Netflix Теджас Чопра разработал инструмент Project Headroom, который сжимает контекст перед отправкой в языковую модель и за счет этого помогает пользователям экономить на ИИ-запросах.
Инженер Netflix Теджас Чопра разработал инструмент Project Headroom, который сжимает контекст перед отправкой в языковую модель и за счет этого помогает пользователям экономить на ИИ-запросах.
Как пишет The Register, проект не является официальной разработкой Netflix, однако им уже пользуются несколько команд внутри компании, а также внешние разработчики.
Headroom работает с контекстом, который отправляется в языковую модель: историей переписки, логами, результатами работы инструментов, файлами, документацией и другими данными. Перед отправкой в LLM программа сжимает этот контекст и удаляет из него избыточную информацию. По оценке Чопры, до 90% токенов в таких данных могут быть фактически лишними для модели.
Сам Чопра рассказал, что пользователи Headroom уже сэкономили примерно $700 тысяч. По его словам, благодаря инструменту у них освободилось около 200 миллиардов токенов, которые теперь можно использовать для других задач. Проект был выпущен в январе, сейчас находится на ранней версии v0.22, но уже набрал около 2 тысяч звезд на GitHub и более 120 форков.
Идея проекта появилась после того, как Чопра получил счет на $287 за использование Claude Sonnet в домашнем проекте. Речь шла о типичных задачах: отладке, рефакторинге, работе с MCP-инструментами и запросах к базе данных. После анализа расходов инженер выяснил, что значительная часть токенов уходит не на его собственные инструкции, а на машинный «мусор»: чрезмерно подробные JSON-схемы, вложенные шаблоны в API-ответах, повторяющиеся колонки баз данных и другую служебную информацию.
Чопра описывает такие данные как «сжимаемую информацию, маскирующуюся под текст». По его словам, проблема особенно заметна в агентных системах, где модель получает не только пользовательский запрос, но и большое количество технического контекста. Чем больше данных отправляется в контекстное окно, тем выше стоимость запроса и тем больше риск, что модель начнет хуже работать из-за перегрузки информацией.
Компания случайно потратила $500 млн на Claude за месяц — СМИ
Headroom запускается локально на компьютере разработчика как прокси и встраивается в рабочий процесс через командную строку. Инструмент определяет тип входящих данных и отправляет их в разные компрессоры. Для кода используется компрессор на основе Abstract Syntax Tree, для JSON и веб-структур — отдельные механизмы, которые удаляют лишнюю служебную информацию.
Одна из ключевых особенностей Headroom — обратимое сжатие. Инструмент не просто выбрасывает часть контекста, а оставляет маркеры, по которым модель при необходимости может запросить исходные данные. Оригинальный контекст хранится локально — например, в Redis или SQLite. Это позволяет сокращать стоимость запросов, не теряя доступ к полной информации.
Создтаель также обращает внимание на проблему кэша. Если в системном промпте или другом повторяющемся контексте каждый раз меняется дата, UUID или другой небольшой фрагмент, провайдер ИИ может не распознать уже закэшированные данные и будет заново обрабатывать весь контекст. Это увеличивает расходы, даже если большая часть передаваемой информации фактически не изменилась.
По словам разработчика, Headroom особенно хорошо работает с серверными логами, выводом MCP-инструментов, результатами запросов к базам данных и деревьями файлов. В таких данных много повторяющихся схем, метаданных и технических элементов. Например, в серверных логах, по оценке проекта, можно отбросить до 90% лишнего контекста, а в JSON-выводе MCP-инструментов — около 70%.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.