Google представила Gemini 2.5 — свою самую умную модель, умнее o3 от OpenAI

Google выпустила новое поколение мультимодальных рассуждающих моделей Gemini 2.5. Компания называет Gemini 2.5 Pro Experimental самой умной из выпущенных ею моделей. Она уже доступна в Google AI Studio и в приложении Gemini для пользователей тарифа Gemini Advanced. Компания заявила, что отныне все её новые ИИ-модели будут рассуждающими.

Оставить комментарий

Первой моделью со способностью рассуждать на рынке была o1, вышедшая в сентябре 2024 года. Сейчас думающие модели также предлагают Anthropic, DeepSeek, Google, xAI и прочие. Такие модели поглощают больше вычислительных мощностей и требуют больше времени на проверку фактов и обдумывание запроса для более качественного ответа.

Google выпустила свою первую рассуждающую версию Gemini в декабре. Gemini 2.5 считается самой серьёзной попыткой компании посоперничать с продвинутыми моделями линейки «o» OpenAI.

Google утверждает, что Gemini 2.5 Pro на ряде бенчмарков превосходит лучшие из её прежних моделей и некоторые ведущие ИИ-модели конкурентов. Особенно, по словам Google, она хороша в создании веб-приложений и написании кода. Например, на бенчмарке Aider Polyglot, который оценивает навыки редактирования кода у моделей, Gemini 2.5 Pro набрала 68,6% — больше лучших моделей OpenAI, Anthropic и DeepSeek. На SWE-bench Verified для оценки навыков генерации кода Gemini 2.5 Pro набрала 63,8% — больше o3-mini от OpenAI и R1 от DeepSeek, но уступила Claude 3.7 Sonnet от Anthropic, которая достигла 70,3%. На комплексном бенчмарке Humanity’s Last Exam, содержащем тысячи задач по математике, гуманитарным и естественным наукам, Gemini 2.5 Pro показала результат в 18,8%, что лучше большинства флагманских моделей конкурентов.

Контекстное окно Gemini 2.5 Pro составляет 1 млн токенов (оно сможет вместить примерно 750 тысяч слов), в скором времени Google планирует удвоить эту цифру. Расценки на доступ к API компания не огласила, но пообещала больше подробностей в ближайшие недели.

В чат-боте Gemini теперь можно задавать вопросы о содержимом видео и экрана гаджета
По теме
В чат-боте Gemini теперь можно задавать вопросы о содержимом видео и экрана гаджета
Anthropic выпустила «гибридную» модель Claude 3.7 Sonnet с выбором режима «мышления»
По теме
Anthropic выпустила «гибридную» модель Claude 3.7 Sonnet с выбором режима «мышления»

Читать на dev.by