🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Все ведущие модели ИИ провалили новый тест на общий интеллект

Новый бенчмарк ARC-AGI-2, разработанный для оценки общего интеллекта искусственного интеллекта, показал значительный отрыв между возможностями современных ИИ и человеческим разумом в задачах, требующих адаптации и понимания новых концепций. Большинство ведущих ИИ-моделей продемонстрировали крайне низкие результаты на этом испытании, в отличие от группы людей.

Оставить комментарий
Все ведущие модели ИИ провалили новый тест на общий интеллект

Новый бенчмарк ARC-AGI-2, разработанный для оценки общего интеллекта искусственного интеллекта, показал значительный отрыв между возможностями современных ИИ и человеческим разумом в задачах, требующих адаптации и понимания новых концепций. Большинство ведущих ИИ-моделей продемонстрировали крайне низкие результаты на этом испытании, в отличие от группы людей.

Фонд Arc Prize Foundation, соучредителем которого является известный исследователь в области искусственного интеллекта Франсуа Шолле, объявил о создании нового, более продвинутого теста ARC-AGI-2 для измерения общего интеллекта передовых ИИ-моделей. Тест представляет серию головоломок, где ИИ должен идентифицировать визуальные закономерности, анализируя разноцветные квадраты, и на этой основе создавать правильное продолжение узора. Особенностью ARC-AGI-2 является его направленность на то, чтобы модели не могли использовать накопленный опыт и были вынуждены адаптироваться к совершенно новым задачам.

Результаты тестирования показали, что рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали всего от 1% до 1,3%. Еще более низкие результаты продемонстрировали модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набравшие менее 1%. В то же время, тестирование, проведенное Arc Prize Foundation с участием более 400 человек, показало, что в среднем группы испытуемых верно ответили на 60% заданий. Это свидетельствует о существенном разрыве между текущими возможностями ИИ и интеллектом человека в решении задач, требующих гибкости и понимания новых концепций.

Разработка ARC-AGI-2 была обусловлена необходимостью устранить недостатки предыдущей версии теста, ARC-AGI-1. Шолле отметил, что новый тест является более точным показателем реального интеллекта ИИ-моделей. ARC-AGI-2 исключает возможность решения задач «методом грубой силы», когда модели использовали огромные вычислительные мощности для перебора всех возможных вариантов. Для решения этой проблемы в ARC-AGI-2 была введена метрика эффективности, которая требует от ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание.

Предыдущая версия теста, ARC-AGI-1, оставалась лидирующей метрикой около пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель смогла превзойти все другие ИИ-модели и даже сравняться с производительностью человека в тестах ARC-AGI-1. Однако эти достижения были достигнуты за счет значительных вычислительных затрат. Версия модели o3 под названием o3 (low), которая первой достигла высоких результатов на ARC-AGI-1 (75,7%), показала на ARC-AGI-2 всего 4%, при этом затратив на решение каждой задачи вычислительные ресурсы стоимостью 200 долларов.

Tencent выпустила ИИ-модель T1 которая конкурирует с DeepSeek R1
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
По теме
Tencent выпустила ИИ-модель T1, которая конкурирует с DeepSeek R1
Северная Корея создает новый центр кибератак с использованием ИИ
Северная Корея создает новый центр кибератак с использованием ИИ 
По теме
Северная Корея создает новый центр кибератак с использованием ИИ
Захват AI Slop: как генеративный ИИ «брутфорсит» интернет и меняет онлайн-реальность
Захват AI Slop: как генеративный ИИ «брутфорсит» интернет и меняет онлайн-реальность
По теме
Захват AI Slop: как генеративный ИИ «брутфорсит» интернет и меняет онлайн-реальность
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.