Support us

Инженер придумал, как платить за ИИ меньше: его инструмент удаляет до 90% лишних токенов

Инженер Netflix Теджас Чопра разработал инструмент Project Headroom, который сжимает контекст перед отправкой в языковую модель и за счет этого помогает пользователям экономить на ИИ-запросах.

Оставить комментарий
Инженер придумал, как платить за ИИ меньше: его инструмент удаляет до 90% лишних токенов

Инженер Netflix Теджас Чопра разработал инструмент Project Headroom, который сжимает контекст перед отправкой в языковую модель и за счет этого помогает пользователям экономить на ИИ-запросах.

Как пишет The Register, проект не является официальной разработкой Netflix, однако им уже пользуются несколько команд внутри компании, а также внешние разработчики.

Headroom работает с контекстом, который отправляется в языковую модель: историей переписки, логами, результатами работы инструментов, файлами, документацией и другими данными. Перед отправкой в LLM программа сжимает этот контекст и удаляет из него избыточную информацию. По оценке Чопры, до 90% токенов в таких данных могут быть фактически лишними для модели.

Сам Чопра рассказал, что пользователи Headroom уже сэкономили примерно $700 тысяч. По его словам, благодаря инструменту у них освободилось около 200 миллиардов токенов, которые теперь можно использовать для других задач. Проект был выпущен в январе, сейчас находится на ранней версии v0.22, но уже набрал около 2 тысяч звезд на GitHub и более 120 форков.

Идея проекта появилась после того, как Чопра получил счет на $287 за использование Claude Sonnet в домашнем проекте. Речь шла о типичных задачах: отладке, рефакторинге, работе с MCP-инструментами и запросах к базе данных. После анализа расходов инженер выяснил, что значительная часть токенов уходит не на его собственные инструкции, а на машинный «мусор»: чрезмерно подробные JSON-схемы, вложенные шаблоны в API-ответах, повторяющиеся колонки баз данных и другую служебную информацию.

Чопра описывает такие данные как «сжимаемую информацию, маскирующуюся под текст». По его словам, проблема особенно заметна в агентных системах, где модель получает не только пользовательский запрос, но и большое количество технического контекста. Чем больше данных отправляется в контекстное окно, тем выше стоимость запроса и тем больше риск, что модель начнет хуже работать из-за перегрузки информацией.

Компания случайно потратила $500 млн на Claude за месяц — СМИ
Компания случайно потратила $500 млн на Claude за месяц — СМИ
По теме
Компания случайно потратила $500 млн на Claude за месяц — СМИ

Headroom запускается локально на компьютере разработчика как прокси и встраивается в рабочий процесс через командную строку. Инструмент определяет тип входящих данных и отправляет их в разные компрессоры. Для кода используется компрессор на основе Abstract Syntax Tree, для JSON и веб-структур — отдельные механизмы, которые удаляют лишнюю служебную информацию.

Одна из ключевых особенностей Headroom — обратимое сжатие. Инструмент не просто выбрасывает часть контекста, а оставляет маркеры, по которым модель при необходимости может запросить исходные данные. Оригинальный контекст хранится локально — например, в Redis или SQLite. Это позволяет сокращать стоимость запросов, не теряя доступ к полной информации.

Создтаель также обращает внимание на проблему кэша. Если в системном промпте или другом повторяющемся контексте каждый раз меняется дата, UUID или другой небольшой фрагмент, провайдер ИИ может не распознать уже закэшированные данные и будет заново обрабатывать весь контекст. Это увеличивает расходы, даже если большая часть передаваемой информации фактически не изменилась.

По словам разработчика, Headroom особенно хорошо работает с серверными логами, выводом MCP-инструментов, результатами запросов к базам данных и деревьями файлов. В таких данных много повторяющихся схем, метаданных и технических элементов. Например, в серверных логах, по оценке проекта, можно отбросить до 90% лишнего контекста, а в JSON-выводе MCP-инструментов — около 70%.

Canva дала 5000 сотрудникам неделю на изучение ИИ — и пришла к неожиданным выводам
Canva дала 5000 сотрудникам неделю на изучение ИИ — и пришла к неожиданным выводам
По теме
Canva дала 5000 сотрудникам неделю на изучение ИИ — и пришла к неожиданным выводам
«Это шутка?»: новые цены GitHub Copilot разозлили разрабов
«Это шутка?»: новые цены GitHub Copilot разозлили разрабов
По теме
«Это шутка?»: новые цены GitHub Copilot разозлили разрабов
«Они говорят это уже 20 лет»: профессор MIT усомнился что ИИ — настоящая причина увольнений в ИТ
«Они говорят это уже 20 лет»: профессор MIT усомнился, что ИИ — настоящая причина увольнений в ИТ 
По теме
«Они говорят это уже 20 лет»: профессор MIT усомнился, что ИИ — настоящая причина увольнений в ИТ
Читайте также
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Классика: ИИ-стартап уволил тысячи подрядчиков, а потом нанял назад — на четверть дешевле
Классика: ИИ-стартап уволил тысячи подрядчиков, а потом нанял назад — на четверть дешевле
Классика: ИИ-стартап уволил тысячи подрядчиков, а потом нанял назад — на четверть дешевле
4 комментария
Разраб придумал способ снизить расходы на токены в разы
Разраб придумал способ снизить расходы на токены в разы
Разраб придумал способ снизить расходы на токены в разы
Токены съедают бюджеты: компании ищут способы снизить расходы на ИИ
Токены съедают бюджеты: компании ищут способы снизить расходы на ИИ
Токены съедают бюджеты: компании ищут способы снизить расходы на ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.