Помогите нам делать больше полезного контента — поддержите редакцию.
Support us

Все ведущие модели ИИ провалили новый тест на общий интеллект

Новый бенчмарк ARC-AGI-2, разработанный для оценки общего интеллекта искусственного интеллекта, показал значительный отрыв между возможностями современных ИИ и человеческим разумом в задачах, требующих адаптации и понимания новых концепций. Большинство ведущих ИИ-моделей продемонстрировали крайне низкие результаты на этом испытании, в отличие от группы людей.

Оставить комментарий
Все ведущие модели ИИ провалили новый тест на общий интеллект

Новый бенчмарк ARC-AGI-2, разработанный для оценки общего интеллекта искусственного интеллекта, показал значительный отрыв между возможностями современных ИИ и человеческим разумом в задачах, требующих адаптации и понимания новых концепций. Большинство ведущих ИИ-моделей продемонстрировали крайне низкие результаты на этом испытании, в отличие от группы людей.

Фонд Arc Prize Foundation, соучредителем которого является известный исследователь в области искусственного интеллекта Франсуа Шолле, объявил о создании нового, более продвинутого теста ARC-AGI-2 для измерения общего интеллекта передовых ИИ-моделей. Тест представляет серию головоломок, где ИИ должен идентифицировать визуальные закономерности, анализируя разноцветные квадраты, и на этой основе создавать правильное продолжение узора. Особенностью ARC-AGI-2 является его направленность на то, чтобы модели не могли использовать накопленный опыт и были вынуждены адаптироваться к совершенно новым задачам.

Результаты тестирования показали, что рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали всего от 1% до 1,3%. Еще более низкие результаты продемонстрировали модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набравшие менее 1%. В то же время, тестирование, проведенное Arc Prize Foundation с участием более 400 человек, показало, что в среднем группы испытуемых верно ответили на 60% заданий. Это свидетельствует о существенном разрыве между текущими возможностями ИИ и интеллектом человека в решении задач, требующих гибкости и понимания новых концепций.

Разработка ARC-AGI-2 была обусловлена необходимостью устранить недостатки предыдущей версии теста, ARC-AGI-1. Шолле отметил, что новый тест является более точным показателем реального интеллекта ИИ-моделей. ARC-AGI-2 исключает возможность решения задач «методом грубой силы», когда модели использовали огромные вычислительные мощности для перебора всех возможных вариантов. Для решения этой проблемы в ARC-AGI-2 была введена метрика эффективности, которая требует от ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание.

Предыдущая версия теста, ARC-AGI-1, оставалась лидирующей метрикой около пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель смогла превзойти все другие ИИ-модели и даже сравняться с производительностью человека в тестах ARC-AGI-1. Однако эти достижения были достигнуты за счет значительных вычислительных затрат. Версия модели o3 под названием o3 (low), которая первой достигла высоких результатов на ARC-AGI-1 (75,7%), показала на ARC-AGI-2 всего 4%, при этом затратив на решение каждой задачи вычислительные ресурсы стоимостью 200 долларов.

Tencent выпустила ИИ-модель T1 которая конкурирует с DeepSeek R1
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
По теме
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
Северная Корея создает новый центр кибератак с использованием ИИ
Северная Корея создает новый центр кибератак с использованием ИИ 
По теме
Северная Корея создает новый центр кибератак с использованием ИИ
Захват AI Slop: как генеративный ИИ «брутфорсит» интернет и меняет онлайн-реальность
Захват AI Slop: как генеративный ИИ «брутфорсит» интернет и меняет онлайн-реальность
По теме
Захват AI Slop: как генеративный ИИ «брутфорсит» интернет и меняет онлайн-реальность
Благодаря вашей поддержке мы можем выпускать еще больше полезного контента.

Как помочь редакции

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.