Support us

Opus за $2000 или Kimi за $200? AI-энтузиаст сравнил топовые и бюджетные модели

Projects & Teams Manager Тимур Хащеватский много экспериментирует с LLM. Он сравнил дорогие и дешёвые, большие и маленькие модели — и попытался понять, для каких задач действительно нужен AI за тысячи долларов.

Оставить комментарий
Opus за $2000 или Kimi за $200? AI-энтузиаст сравнил топовые и бюджетные модели

Projects & Teams Manager Тимур Хащеватский много экспериментирует с LLM. Он сравнил дорогие и дешёвые, большие и маленькие модели — и попытался понять, для каких задач действительно нужен AI за тысячи долларов.

— Я для разработки почти всегда использую последние модели Anthropic.  Сейчас лучшая из доступных — Opus 4.7 (Mythos простым смертным пока недоступен).

Несколько раз экспериментировал с моделями OpenAI. Но что-то не то, каждый раз в результате возвращался к моделям Anthropic. Впрочем для design и code review модели OpenAI подходят хорошо. Время от времени пользуюсь ими для того чтобы раскритиковать текущие дизайн и реализацию.

Моя среда разработки — Claude Desktop + Filesystem MCP + Claude code MCP. Редактирование файлов проекта и в некоторых случаях запуск экспериментов делаю напрямую из чата. В проектах накапливаются десятки сессий, для комфортного перехода между ними ведутся md файлы с накопленными знаниями.

Непосредственно Claude Code использую реже. Агентов и skills люблю не особо, предпочитаю вместо них создавать максимально детерминированные пайплайны (сбор и обработка информации максимально выносятся в скрипты, а вызовы LLM регламентированы по принципу Chain of Thoughts/Structured Output).

Что касается моделей, используемых в продуктах — их может быть целый зверинец. Но здесь обычно речь не о предпочтениях, а о специализации. Если нужен «мозг» — скорее всего, это будут те же модели Anthropic и OpenAI (для простых задач — более дешёвые). Распознавание информации из мультимедиа, перевод, поиск в Интернете обычно неплохо выходят у моделей Google.

Для конкретной задачи нужно разобраться, какого типа модель хотим, посмотреть текущие результаты бенчмарков и основательно протестировать пару-тройку лучших вариантов. Отдельная тема — это дизайн тестов и контроль качества, которые в AI-разработке ещё более важны, чем в традиционной. При этом желательно использовать фреймворки, которые позволяют переключаться между моделями разных вендоров без боли — langchain, llamaindex и иже с ними. Так как супержелеза у меня нет, локальные модели использую только для простых задач — embeddings, speech-to-text.

Комментарий devby: фронтирные модели ощутимо подорожают?

Участники дискуссий о больших языковых моделях стратегию создателей LLM нередко сравнивают с методами драгдиллеров. Ключевые пункты этой аналогии такие:

  • «бесплатная первая доза» (период, когда компании предлагали мощные модели вообще бесплатно или за символические суммы);
  • формирование зависимости, в том числе в виде вайб-кодинга, когда всё больше людей ощущают пользу от работы с LLM и «подсаживаются» на удобных помощников;
  • сильное повышение цены на высокопроизводительные LLM;
  • «ломка» в случае отказа от использования LLM, когда производительность человека, который разучился работать без их помощи, может упасть чуть ли не до нуля.

Пока кто-то видит в этой апокалиптичной картине контуры стандартной теории заговора, другие пытаются загодя придумать замену для LLM на тот случай, если их цена станет неподъёмной для обычных разработчиков.

В конспирологические теории я не верю. Даже в ситуации монополии стратегия драгдиллеров в случае LLM вряд ли имела бы смысл из-за эластичности спроса. А монополии нет — есть Claude, OpenAI, Gemini, Grok, Deepseek и куча открытых моделей, которые наступают друг другу на пятки.

Другое дело, что непонятно, что будет происходить с балансом спроса и предложения. Вычислительная мощность и электроэнергия не бесконечны. И если их производство не будет успевать за ростом числа и аппетитом агентов, то цены могут улететь в космос без всякой конспирологии. Плюс к этому во вкус войдут государства, в особенности их силовые блоки.

Какую цену LLM я считаю для себя приемлемой? Для личных хобби-проектов и обсуждений, не направленных на заработок, больше $200-300 в месяц лично я бы не тратил (но это сугубо индивидуально — вопрос личной экономики и приоритетов). А в бизнес-режиме нужно считать. Если сравнивать коммерческую разработку с Opus и без ничего, то и $2000 окупятся. Это если мы говорим об удвоении производительности — это моя самая консервативная оценка. В в реале это, скорее 3-10-кратное увеличение.

Если сравнивать Opus за $2000 и Kimi за $200, то здесь тоже есть над чем подумать. Но без тестов на этот вопрос не ответить.

Малые модели могут быть вполне ок для простых задач. Самые очевидные примеры — распознавание речи или создание embeddings для RAG. Я как раз на этой неделе делал это для одной задачи на писишке даже без GPU. Но для кодирования они не годятся.

Что до больших открытых моделей, вопрос делится на два: локальный инференс или модель в облаке (например Huggingface).

Главная проблема локального инференса — цена железа и скорость работы. RTX 5090 стоит что-то около $4k, запустить на ней можно модели максимум 70B, по качеству это намного хуже фронтирных Opus и ChatGPT.

Разумный вариант — большие открытые модели в облаках. Если Anthropic и OpenAI перестанут быть доступными, придется перейти на них. Сам я их не тестировал, но видел результаты бенчмарков — очень плохо быть не должно.

Справка devby: как сейчас выглядят немейнстримовые модели LLM на фоне дорожающих моделей от лидеров рынка?

Цены на токены постоянно меняются. Мы оценили ситуацию в моменте, то есть по состоянию середину мая 2026 года. 

Мейнстримовые Claude и GPT сейчас находятся на одном уровне по выходным токенам — оба по $15/млн на флагманских средних моделях (Sonnet 4.6 и GPT-5.4). На входящих токенах GPT-5.4 немного дешевле: $2.50 против $3 у Sonnet 4.6. В сравнении с ними неожиданно выгоден Grok. Его версия 4.1 Fast стоит $0.20/млн входящих токенов при контекстном окне в 2 млн токенов — даже дешевле, чем GPT mini, Gemini Flash и любая модель Anthropic.

Китайский флагамнский DeepSeek V3.2 Reasoner при цене в $0.28/$0.42 за млн токенов сопоставим с Grok-ом. 

При этом про-тиры основных игроков очень дорогие. Например,   GPT-5.4 Pro и GPT-5.5 Pro стоят $30/$180 за млн токенов. Чуть дешевле стоит Opus 4.7 Fast Mode от Anthropic ($30/$150 за млн токенов на максимальной скорости). 

Разброс цен альтернативных LLM-моделей тоже довольно большой. Флагман европейского Mistral Large 3 обойдётся в $0,5/$1,5 за млн токенов, а бюджетная альтернатива Small 3.2 — в $0.10/$0.30. Kimi от китайской Moonshot AI предлагает K2 Thinking за $0.60/$2.50 за млн токенов и K2 Thinking Turbo за $1,15/$8. За Qwen 3.6 Plus от ещё одной китайской компании Alibaba просят $0.33/$1.95 за млн токенов. 

Ещё одна альтернатива — модель Meta AI LLaMA. Хотя эта модель разработана в недрах бигтеха, открытые веса позволяют запустить её у любого хостера или на своей инфраструктуре, что как будто исключает зависимость от одного поставщика. Цена на Llama отличается у разных провайдеров. Последняя версия Llama 4 Maverick у DeepInfra стоит $0,15/$0,60 за млн токенов. 

«Парни тебя как бы исключают из разговора за обедом». Обсуждаем с AI-исследовательницей карьеру хайп работу с мужчинами и разницу в зп
«Парни тебя как бы исключают из разговора за обедом». Обсуждаем с AI-исследовательницей карьеру, хайп, работу с мужчинами и разницу в зп 
По теме
«Парни тебя как бы исключают из разговора за обедом». Обсуждаем с AI-исследовательницей карьеру, хайп, работу с мужчинами и разницу в зп
«Единственная возможность задержаться в профессии ещё на несколько лет». Опытные разработчики объясняют почему привычное программирование скоро всё
«Единственная возможность задержаться в профессии ещё на несколько лет». Опытные разработчики объясняют, почему привычное программирование скоро всё
По теме
«Единственная возможность задержаться в профессии ещё на несколько лет». Опытные разработчики объясняют, почему привычное программирование скоро всё
«Новое ещё долго не сможет создать». Почему разработчики уверены что AI их не заменит
«Новое ещё долго не сможет создать». Почему разработчики уверены, что AI их не заменит
По теме
«Новое ещё долго не сможет создать». Почему разработчики уверены, что AI их не заменит
Читайте также
Anthropic представила свою самую быструю и экономичную модель для кодинга
Anthropic представила свою самую быструю и экономичную модель для кодинга
Anthropic представила свою самую быструю и экономичную модель для кодинга
16 ИИ-агентов создали C-компилятор на Rust за 2 недели
16 ИИ-агентов создали C-компилятор на Rust за 2 недели
16 ИИ-агентов создали C-компилятор на Rust за 2 недели
2 комментария
OpenAI представила свою кибербез-модель после релиза Anthropic
OpenAI представила свою кибербез-модель после релиза Anthropic
OpenAI представила свою кибербез-модель после релиза Anthropic
Anthropic выпустила кодинг-модель, но специально урезала её возможности
Anthropic выпустила кодинг-модель, но специально урезала её возможности
Anthropic выпустила кодинг-модель, но специально урезала её возможности

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.