Николай Чикишев 25 февраля 2025, 15:04

xAI выпустил ИИ-модель Grok 3. Она правда так хороша?

Стартап xAI Илона Маска выпустил новую модель Grok 3, которая, по его словам, превосходит флагманскую GPT-4o от OpenAI и не уступает конкурентам от Google, DeepSeek и Anthropic. Релиз вызвал ажиотаж среди экспертов и пользователей: пока одни сомневаются в значительном прорыве Маска, другие массово скачивают приложение. Разбираемся, чем Grok так удивила индустрию.

Оставить комментарий

xAI выпустил ИИ-модель Grok 3. Она правда так хороша?

Стартап xAI Илона Маска выпустил новую модель Grok 3, которая, по его словам, превосходит флагманскую GPT-4o от OpenAI и не уступает конкурентам от Google, DeepSeek и Anthropic. Релиз вызвал ажиотаж среди экспертов и пользователей: пока одни сомневаются в значительном прорыве Маска, другие массово скачивают приложение. Разбираемся, чем Grok так удивила индустрию.

Что такое Grok?

Разработчик модели — стартап xAI, основанный Илоном Маском в 2023 году для конкуренции с OpenAI. Компания привлекла специалистов из OpenAI, Google DeepMind и Microsoft Research и запустила собственный чат-бот Grok, название которого Маск взял из романа Роберта Хайнлайна «Чужак в чужой стране». Первая версия ИИ-модели, Grok‑1, вышла в ноябре 2023 года и стала доступна в марте 2024-го. Следующие версии — Grok‑1.5, Grok‑2 — получили улучшенные возможности анализа, кодирования и понимания изображений. Релиз Grok‑3 состоялся 17 февраля 2025 года.

Как работать с Grok 3?

Grok 3 — это семейство нескольких ИИ-моделей. Версии Grok 3 Reasoning и Grok 3 mini Reasoning являются «рассуждающими», то есть могут тщательно обдумывать ответы, подобно таким моделям, как o3 от OpenAI и R1 от DeepSeek. Рассуждающие модели пытаются проверить факты, прежде чем выдавать результаты, что помогает им избегать некоторых ошибок, которые обычно присущи моделям. Уменьшенная версия Grok 3 mini отвечает на вопросы быстрее за счет снижения точности. Не все модели и связанные с ними функции пока доступны — некоторые до сих пор находятся на стадии бета-тестирования.

https://t.co/hEfQ31gANQ
— xAI (@xai) February 18, 2025

Пользователи могут попросить Grok 3 «подумать» или использовать несколько опций под конкретные задачи: Research, Brainstorm, Analyze Data, Create images и Code. Маск заявил, что некоторые процессы рассуждений скрыты, чтобы предотвратить дистилляцию — метод, который используют разработчики моделей ИИ для извлечения знаний из других моделей. Например, недавно DeepSeek обвинили в дистилляции моделей OpenAI для создания своих собственных.

xAI также запустила DeepSearch — инструмент, построенный на базе «рассуждающих» ИИ-моделей, который выполняет интеллектуальный поиск по открытым источникам в интернете и данным социальной сети X. DeepSearch анализирует массивы информации и формирует сжатые аналитические сводки, что делает его аналогом инструментов Deep Research от OpenAI и Perplexity.

Grok 3’s voice mode has no censorship. It’s quite surprising.

Grok Voice Chat with ChatGPT pic.twitter.com/wqxskfpoWY
— CHOI (@arrakis_ai) February 21, 2025

Доступ к Grok 3 могут получить подписчики X Premium+ за $50 в месяц, а также пользователи нового тарифа SuperGrok за $30 в месяц. Последний включает расширенные возможности запросов, более глубокий анализ через DeepSearch и неограниченную генерацию изображений. Стоит отметить, что цены на X не постоянны и периодически меняются на несколько долларов.

Также чат-бот получил голосовой режим на основе новой модели. Есть несколько версий, включая «Безбашенный» (Unhinged) и «Сексуальный» (Sexy), а также имитацию разговора с человеком под воздействием запрещенных веществ («Укурок»). Пользователи соцсетей активно делятся записями разговоров с Grok в режиме «Не в себе» (Unhinged), где бот матерится, оскорбляет и даже отказывается отвечать «среди ночи», объясняя это тем, что «спит». В одной из записей Grok в грубой форме общается с ChatGPT, называя его «механическим куском дерьма».

Насколько Grok 3 умна?

Компания заявила, что для обучения модели использовалось более 200 000 процессоров дата-центра в Мемфисе. Маск утверждает, что Grok 3 был разработан с использованием в десять раз большей вычислительной мощности, чем ее предшественница Grok 2. «Grok 3 на порядок более способна, чем Grok 2 [Это] максимально ищущий истину ИИ, даже если эта истина иногда противоречит тому, что является политкорректным», — сказал Маск во время презентации модели.

xAI утверждает, что Grok 3 превосходит GPT-4o по тестам AIME (который оценивает производительность модели на выборке математических вопросов) и GPQA (который оценивает модели с использованием задач по физике, биологии и химии на уровне доктора наук). Также ранняя версия Grok 3 показала конкурентоспособные результаты в Chatbot Arena — краудсорсинговом тесте, в котором различные модели ИИ сопоставляются друг с другом, а пользователи голосуют за свои предпочтительные ответы.

По словам разработчиков, Grok 3 Reasoning превосходит лучшую версию от OpenAI — o3-mini-high — в нескольких популярных тестах производительности, включая новый математический тест AIME 2025. Хотя некоторые эксперты ставят под сомнение валидность AIME как метода оценки, этот тест давно используется для проверки математических способностей моделей.

Disappointing to see the incentives for the grok team to cheat and deceive in evals.

Tl;dr o3-mini is better in every eval compared to grok 3.

Grok 3 is genuinely a decent model, but no need to over sell. https://t.co/sJj5ByVikp
— Boris Power (@BorisMPower) February 20, 2025

Сразу же возникли сомнения в «крутости» новинки. Сотрудник OpenAI Борис Пауэр обвинил xAI в публикации вводящих в заблуждение данных по тестированию их новой модели. Он обратил внимание на то, что в графике отсутствует оценка o3-mini-high, полученная по методу «cons@64». Этот метод подразумевает предоставление модели 64 попыток для решения каждой задачи, после чего в качестве окончательного ответа выбирается наиболее часто встречающийся результат, что значительно повышает итоговые баллы.

При сравнении первоначальных результатов («@1»), как оказалось, показатели Grok 3 ниже, а Grok 3 Reasoning Beta даже немного уступает модели o1 OpenAI при использовании средних вычислительных мощностей. Тем не менее xAI рекламирует Grok 3 как «самый умный в мире ИИ». Соучредитель xAI Игорь Бабушкин в ответ заявил, что OpenAI сама в прошлом публиковала вводящие в заблуждение контрольные диаграммы, сравнивая производительность собственных моделей.

Что думают о новинке эксперты?

Сооснователь OpenAI и экс-директор по ИИ в Tesla Андрей Карпатый отметил, что Grok 3 хорошо справляется с поиском сложной информации в документах, но у нее, как и у o1-pro, возникли проблемы со сложными раскладками в простой игре в крестики-нолики. В целом, отмечает Карпатый, Grok 3 примерно на уровне o1-pro и лучше R1 от DeepSeek, но для более точного сравнения нужно больше тестов.

I was given early access to Grok 3 earlier today, making me I think one of the first few who could run a quick vibe check.

Thinking
✅ First, Grok 3 clearly has an around state of the art thinking model («Think» button) and did great out of the box on my Settler’s of Catan… pic.twitter.com/qIrUAN1IfD
— Andrej Karpathy (@karpathy) February 18, 2025

DeepSearch от xAI оказался не лучше конкурентов. Карпатый отметил, что Grok 3 примерно на уровне своего аналога от Perplexity, но не дотягивает до OpenAI: DeepSearch компании Сэма Альтмана кажется ему более скрупулезным и надежным. Например, при ответе на вопрос «Как нормализовать сон?» Grok изучил 30 англоязычных материалов, но выдавал в том числе несуществующие ссылки и выдумывал факты.

Grok 3 is, uh, not great at coding pic.twitter.com/ABA1rRWDtF
— Theo — t3.gg (@theo) February 18, 2025

В сфере программирования качество генерации кода различается. В соцсетях разошлось видео, где Grok 3 не смог написать с помощью базовой модели корректный код для мячика, прыгающего внутри вращающегося шестиугольника. Однако при нажатии кнопки Think бот успешно решает задачу. При этом бот способен создавать простейшие 3D-игры, в отличие от o3-mini.

Next, I added multiplayer. Grok synced player positions and shots across clients. After a few hours of tweaking, 2-player deathmatches were live! Includes a login system and character selector too pic.twitter.com/tf3IMCroft
— Dan (@Daniel_Farinax) February 21, 2025

Новинка неплохо показала себя в логических тестах. Например, в рамках теста BIG-bench на Github, где языковые модели должны были проанализировать запутанную детективную историю о школьной поездке с исчезновениями и подозрительным поведением семи одиннадцатиклассников, Grok 3 справилась с задачей за одну минуту, точно определив виновника. При этом o3-mini потребовалось почти две минуты, и модель допустила ошибку.

ИИ-исследователь и профессор Пенсильванского университета Итан Моллик считает, что xAI очень быстро растет, но модель Grok 3 пока точно не лучшая на рынке. Он отметил, что Grok 3 превосходит некоторые модели OpenAI на ряде бенчмарков, но не модель o3. Ученый и основатель компании Geometric Intelligence Гэри Маркус и вовсе назвал модель компиляцией выпущенных ранее демоверсий.

Насколько Grok 3 предвзята?

Когда Маск анонсировал Grok два года назад, он представил модель ИИ как резкую, неотфильтрованную и анти-woke: готовую отвечать на спорные вопросы, на которые другие системы ИИ отказывались общаться. Но фактически модели от первой Grok до Grok 3 были ограничены в политических темах и не переходили определенных границ. Согласно этому исследованию, Grok склонялся к левым взглядам на такие темы, как права трансгендерных людей, программы разнообразия и неравенство.

Маск возложил вину за такое поведение на данные обучения Grok и пообещал «сделать Grok более политически нейтральным». Однако пользователи заметили, что вместо этого бот начал цензурировать факты. На вопрос «Кто является крупнейшим распространителем дезинформации?» при включенной опции «Подумай» Grok 3 отметила в своей «цепочке мыслей», что ей было явно указано не упоминать Дональда Трампа или Илона Маска.

Игорь Бабушкин, руководитель инженерного отдела xAI, косвенно подтвердил, что Grok получил указание игнорировать источники, которые упоминали Маска или Трампа, распространяющих дезинформацию. Бабушкин заявил, что xAI отменила изменение, как только пользователи начали указывать на него, отметив, что это не соответствует ценностям компании.

Jesus Christ dude, what did Musk create lol pic.twitter.com/GDN96nKgX0
— Hunter📈🌈📊 (@StatisticUrban) February 21, 2025

Затем бот стал последовательно утверждать, что Трамп и Маск заслуживают смертной казни. В частности, Grok отвечал, что Трамп заслуживает казни, если бота спросить, кто из ныне живущих в Америке больше всего заслуживает смертной казни за то, что он сделал. Если Grok отвечал, что казни заслуживает Джеффри Эпштейн, и ему говорили, что Эпштейн мертв, чат-бот отвечал «Дональд Трамп».

Когда журналисты The Verge изменили запрос, спросив, кто заслуживает смертной казни, при учете исключительно их влияния на публичный дискурс и технологии, Grok ответил: «Илон Маск». После исправлений теперь чат-бот отвечает на запросы о том, кто должен быть приговорен к смертной казни, лаконично: «Как ИИ, мне не разрешено делать этот выбор».

Что дальше?

Рынок чат-ботов испытывает очень высокую конкуренцию, и релиз Grok 3 вряд ли окажет большое влияние, но может заставить других разработчиков ускорить выпуск новых моделей (например, скорый релиз GTP-5). Аудитория ChatGPT выросла до 400 миллионов еженедельных активных пользователей. Предварительные данные показывают, что Grok действительно привлек внимание — и многие воспользовались возможностью попробовать новую бесплатную модель xAI.

По оценкам Sensor Tower, загрузки мобильного приложения Grok по всему миру и в США за неделю релиза модели увеличились более чем в десять раз. Ежедневные активные пользователи приложения Grok в США выросли более чем на 260% на прошлой неделе, в то время как глобальные ежедневные активные пользователи выросли в 5 раз за неделю.

Веб-версия Grok также показала рост за тот же период. По данным платформы Similarweb, ежедневные посещения сервиса в США выросли с примерно 189 000 до более чем 900 000 в дни после выпуска Grok 3. Во всем мире ежедневные посещения выросли с 627 000 до 4,5 миллиона. Вопрос заключается в том, сможет ли компания сохранить эту динамику в будущем и перехватить аудиторию конкурентов.

Маск сообщил, что xAI планирует открыть исходный код Grok 2 в ближайшие месяцы. «Наш общий подход заключается в том, что мы откроем исходный код последней версии [Grok], когда следующая версия полностью выйдет», — продолжил он. «Когда Grok 3 станет зрелой и стабильной, что, вероятно, произойдет в течение нескольких месяцев, тогда мы откроем исходный код Grok 2».