Opus за $2000 или Kimi за $200? AI-энтузиаст сравнил топовые и бюджетные модели
Projects & Teams Manager Тимур Хащеватский много экспериментирует с LLM. Он сравнил дорогие и дешёвые, большие и маленькие модели — и попытался понять, для каких задач действительно нужен AI за тысячи долларов.
Projects & Teams Manager Тимур Хащеватский много экспериментирует с LLM. Он сравнил дорогие и дешёвые, большие и маленькие модели — и попытался понять, для каких задач действительно нужен AI за тысячи долларов.
— Я для разработки почти всегда использую последние модели Anthropic. Сейчас лучшая из доступных — Opus 4.7 (Mythos простым смертным пока недоступен).
Несколько раз экспериментировал с моделями OpenAI. Но что-то не то, каждый раз в результате возвращался к моделям Anthropic. Впрочем для design и code review модели OpenAI подходят хорошо. Время от времени пользуюсь ими для того чтобы раскритиковать текущие дизайн и реализацию.
Моя среда разработки — Claude Desktop + Filesystem MCP + Claude code MCP. Редактирование файлов проекта и в некоторых случаях запуск экспериментов делаю напрямую из чата. В проектах накапливаются десятки сессий, для комфортного перехода между ними ведутся md файлы с накопленными знаниями.
Непосредственно Claude Code использую реже. Агентов и skills люблю не особо, предпочитаю вместо них создавать максимально детерминированные пайплайны (сбор и обработка информации максимально выносятся в скрипты, а вызовы LLM регламентированы по принципу Chain of Thoughts/Structured Output).
Что касается моделей, используемых в продуктах — их может быть целый зверинец. Но здесь обычно речь не о предпочтениях, а о специализации. Если нужен «мозг» — скорее всего, это будут те же модели Anthropic и OpenAI (для простых задач — более дешёвые). Распознавание информации из мультимедиа, перевод, поиск в Интернете обычно неплохо выходят у моделей Google.
Для конкретной задачи нужно разобраться, какого типа модель хотим, посмотреть текущие результаты бенчмарков и основательно протестировать пару-тройку лучших вариантов. Отдельная тема — это дизайн тестов и контроль качества, которые в AI-разработке ещё более важны, чем в традиционной. При этом желательно использовать фреймворки, которые позволяют переключаться между моделями разных вендоров без боли — langchain, llamaindex и иже с ними. Так как супержелеза у меня нет, локальные модели использую только для простых задач — embeddings, speech-to-text.
Комментарий devby: фронтирные модели ощутимо подорожают?
Участники дискуссий о больших языковых моделях стратегию создателей LLM нередко сравнивают с методами драгдиллеров. Ключевые пункты этой аналогии такие:
«бесплатная первая доза» (период, когда компании предлагали мощные модели вообще бесплатно или за символические суммы);
формирование зависимости, в том числе в виде вайб-кодинга, когда всё больше людей ощущают пользу от работы с LLM и «подсаживаются» на удобных помощников;
сильное повышение цены на высокопроизводительные LLM;
«ломка» в случае отказа от использования LLM, когда производительность человека, который разучился работать без их помощи, может упасть чуть ли не до нуля.
Пока кто-то видит в этой апокалиптичной картине контуры стандартной теории заговора, другие пытаются загодя придумать замену для LLM на тот случай, если их цена станет неподъёмной для обычных разработчиков.
В конспирологические теории я не верю. Даже в ситуации монополии стратегия драгдиллеров в случае LLM вряд ли имела бы смысл из-за эластичности спроса. А монополии нет — есть Claude, OpenAI, Gemini, Grok, Deepseek и куча открытых моделей, которые наступают друг другу на пятки.
Другое дело, что непонятно, что будет происходить с балансом спроса и предложения. Вычислительная мощность и электроэнергия не бесконечны. И если их производство не будет успевать за ростом числа и аппетитом агентов, то цены могут улететь в космос без всякой конспирологии. Плюс к этому во вкус войдут государства, в особенности их силовые блоки.
Какую цену LLM я считаю для себя приемлемой? Для личных хобби-проектов и обсуждений, не направленных на заработок, больше $200-300 в месяц лично я бы не тратил (но это сугубо индивидуально — вопрос личной экономики и приоритетов). А в бизнес-режиме нужно считать. Если сравнивать коммерческую разработку с Opus и без ничего, то и $2000 окупятся. Это если мы говорим об удвоении производительности — это моя самая консервативная оценка. В в реале это, скорее 3-10-кратное увеличение.
Если сравнивать Opus за $2000 и Kimi за $200, то здесь тоже есть над чем подумать. Но без тестов на этот вопрос не ответить.
Малые модели могут быть вполне ок для простых задач. Самые очевидные примеры — распознавание речи или создание embeddings для RAG. Я как раз на этой неделе делал это для одной задачи на писишке даже без GPU. Но для кодирования они не годятся.
Что до больших открытых моделей, вопрос делится на два: локальный инференс или модель в облаке (например Huggingface).
Главная проблема локального инференса — цена железа и скорость работы. RTX 5090 стоит что-то около $4k, запустить на ней можно модели максимум 70B, по качеству это намного хуже фронтирных Opus и ChatGPT.
Разумный вариант — большие открытые модели в облаках. Если Anthropic и OpenAI перестанут быть доступными, придется перейти на них. Сам я их не тестировал, но видел результаты бенчмарков — очень плохо быть не должно.
Справка devby: как сейчас выглядят немейнстримовые модели LLM на фоне дорожающих моделей от лидеров рынка?
Цены на токены постоянно меняются. Мы оценили ситуацию в моменте, то есть по состоянию середину мая 2026 года.
Мейнстримовые Claude и GPT сейчас находятся на одном уровне по выходным токенам — оба по $15/млн на флагманских средних моделях (Sonnet 4.6 и GPT-5.4). На входящих токенах GPT-5.4 немного дешевле: $2.50 против $3 у Sonnet 4.6. В сравнении с ними неожиданно выгоден Grok. Его версия 4.1 Fast стоит $0.20/млн входящих токенов при контекстном окне в 2 млн токенов — даже дешевле, чем GPT mini, Gemini Flash и любая модель Anthropic.
Китайский флагамнский DeepSeek V3.2 Reasoner при цене в $0.28/$0.42 за млн токенов сопоставим с Grok-ом.
При этом про-тиры основных игроков очень дорогие. Например, GPT-5.4 Pro и GPT-5.5 Pro стоят $30/$180 за млн токенов. Чуть дешевле стоит Opus 4.7 Fast Mode от Anthropic ($30/$150 за млн токенов на максимальной скорости).
Разброс цен альтернативных LLM-моделей тоже довольно большой. Флагман европейского Mistral Large 3 обойдётся в $0,5/$1,5 за млн токенов, а бюджетная альтернатива Small 3.2 — в $0.10/$0.30. Kimi от китайской Moonshot AI предлагает K2 Thinking за $0.60/$2.50 за млн токенов и K2 Thinking Turbo за $1,15/$8. За Qwen 3.6 Plus от ещё одной китайской компании Alibaba просят $0.33/$1.95 за млн токенов.
Ещё одна альтернатива — модель Meta AI LLaMA.Хотя эта модель разработана в недрах бигтеха, открытые веса позволяют запустить её у любого хостера или на своей инфраструктуре, что как будто исключает зависимость от одного поставщика. Цена на Llama отличается у разных провайдеров. Последняя версия Llama 4 Maverick у DeepInfra стоит $0,15/$0,60 за млн токенов.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Так Opus за $2000 или Kimi за $200? Или мы за него должны ответить? Я что-то не догоняю
Инфа по моделям от девбай слегка устаревшая.
Ее задепрекейтили на днях. Теперь только Grok 4.3.
У Дипсик теперь v4 pro и flash флагманы.
Уже есть Mistral Small 4. А лучшая их модель теперь Mistral 3.5 Medium.
Нет больше K2 Turbo - все кроме k2.6 задепрекейчено.
👍