Николай Чикишев 26 марта 2024, 16:10

Прорыв ИИ — это заблуждение: ученые считают, что люди обманывают сами себя

Группа американских ученых бросила вызов расхожему представлению о технологическом прорыве, связанном с развитием ИИ-моделей. Исследователи утверждают, что скачок возможностей искусственного интеллекта — это заблуждение его создателей.

7 комментариев

Прорыв ИИ — это заблуждение: ученые считают, что люди обманывают сами себя

Группа американских ученых бросила вызов расхожему представлению о технологическом прорыве, связанном с развитием ИИ-моделей. Исследователи утверждают, что скачок возможностей искусственного интеллекта — это заблуждение его создателей.

Новое исследование ученых Стэнфордского университета озадачило исследователей больших языковых моделей (LLM). Внимание ученых привлекли так называемые внезапные «скачки способностей», которые возникают у LLM по мере увеличения их размера и сложности. Скачки производительности разожгли споры о непредсказуемости и потенциале ИИ. Исследователи Стэнфорда пришли к выводу, что на самом деле эти явления не такие спонтанные и непредсказуемые, как считается. Все зависит от того, как их интерпретировать.

Ученые выдвинули гипотезу, что эмерджентные способности искусственного интеллекта — это заблуждение работающих с ним исследователей. В тестировании Beyond the Imitation Game benchmark (BIG-bench) приняли участие более 450 исследователей, которые составили 204 задания для изучения возможностей LLM.

Эмерджентные способности ИИ вызывают споры как среди ученых, так и среди разработчиков. Со стороны это выглядит необъяснимо: например, GPT-4 может внезапно выдавать информацию, на знание которой она не была запрограммирована. Модель способна переводить текст с языка, хотя не была этому обучена. Исследователи Microsoft даже заявляли, что GPT-4 показывает «искры общего искусственного интеллекта» и способна «решать новые и сложные задачи без каких-либо специальных подсказок».

В Европе приняли первый в мире закон об ИИ. Что в него входит?

Тест показал, что производительность LLM во многих задачах предсказуемо улучшалась с увеличение размера модели. Однако в некоторых задачах наблюдались неожиданные скачки производительности. Эти результаты побудили исследователей описать определенные способности LLM, сравнив их с фазовым переходом в физике, когда вещество переходит из одной термодинамической фазы в другую при изменении внешних условий. Проще говоря, когда вода превращается в лед.

Споры вокруг природы таких скачков — это этический вопрос, который затрагивает безопасность ИИ-моделей. Непредсказуемость эмерджентных способностей искусственного интеллекта предполагает, что LLM могут развивать способности, которые выходят за рамки нашего текущего понимания или контроля ИИ. Если не объяснить природу скачков, то от искусственного интеллекта можно ожидать чего угодно в любой момент.

Стэнфордские ученые утверждают: то, что воспринималось как необъяснимые скачки производительности, на самом деле — отражение того, как способности ИИ измеряются. Исследователи предполагают, что показатели, которые используются для оценки эффективности LLM, могут не отражать постепенные улучшения, которые происходят по мере масштабирования моделей. Предложенные показатели могут распознавать производительность только после того, как она превысит определенные порог. Именно это создает иллюзию внезапного скачка.

Anthropic показала одну из самых быстрых ИИ-моделей в мире

Например, в таких задачах, как сложение трехзначных чисел, предыдущие исследования сообщали, что GPT-3 или LAMDA терпели неудачу при меньшем количестве параметров, но резко преуспевали при большем. Американские исследователи предполагают, что скачка не будет, если использовать другой способ измерения. Нужно присуждать частичную оценку за приблизительно правильные ответы, а не точное совпадение. Тогда повышение производительности будет выглядеть постепенным, а не внезапным. Если заменить бинарную оценку «правильно/неправильно» на систему с градацией правильности — никаких внезапных скачков не возникнет.

Исследователи не отрицают, что LLM значительно улучшают результаты работы с увеличением масштаба. Их эксперимент скорее вносит нюансы в наше понимание того, как происходит это улучшение. Несмотря на убедительные доказательства, дискуссия об эмерджентных способностях пока далека от завершения. Некоторые ученые возражают, что более детализированная градация оценки производительности ИИ применима к любым областям, тем более к арифметике, где важны точные результаты. Другие исследователи настаивают, что скачки наблюдаются даже в случае, если использовать усовершенствованный метод оценки ИИ.

Научный спор подчеркивает сложной интерпретации возможностей LLM. Какова бы ни была реальная природа скачков производительности ИИ, человек вынужден использовать привычные методы для оценки его работы, что приводит к неизбежному разрыву в точности прогнозирования. Разработка метрик для оценки возможностей искусственного интеллекта — это проблема безопасности технологии, которая нуждается в контроле.

ИИ не угрожает большинству рабочих мест из-за дороговизны внедрения. Пока

Ученые изобрели метод который ускоряет ИИ-генерацию изображений в 30 раз

Microsoft придумала хитрую схему по поглощению ИИ-стартапа Inflection AI

7 комментариев

Текст: Николай Чикишев Источник: Quanta Magazine Теги: llm, большая языковая модель, искусственный интеллект, наука, нейросети

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Meta приостановила ИИ-слежку за сотрудниками после слива их личных данных

Компании тонут в ИИ-пилотах: сотни проектов могут тормозить внедрение технологий

«Страшнее было остаться»: инженер ушла из Google ради ИИ-стартапа

В США стартап бесплатно убирает квартиры, чтобы обучать ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Sczveik Soldier Trader в binance

0

Согласен со всем

Anonymous

0

метавселенные, самоуправляющие машины, "искуственный интеллект" ..., но жизнь проще и лучше не становится 🤷🏻

reader

2

присуждать частичную оценку за приблизительно правильные ответы

насколько это вообще правомерный подход?
я понимаю, что "в военное время значение синуса может достигать четырех" или "поделим 60 на 3, получается примерно 20, но точнее нам и ненадо", но это работает при генерации какого-то текста без конретики, или рисовании картинки.
Для того же программного кода это не работает, если его приблизительно накидать, скорее всего он даже компилироваться не будет. Я не говорю про системы и оборудование. Никто не хочет условный автопилот, который примерно что-то обнаружил и приблизительно посчитал, что где-то там затормозит или объедет. Ну если промахнется, то он же был примерно прав.
В финансах никого не устроят приблизительные расчеты, например при расчете зп, налогов или баланса)

Alex V

-1

У абсолютно всего есть погрешность. Даже в финансах так или иначе приходится выбирать, до какого знака после запятой округлять. Float там никто не использует (зато много об этом шутят), но вот с единым подходом к округлению в разных частях системы часто бывают проблемы. Наука так и вовсе вся сейчас на аппроксимациях и вероятносных моделях. В генерации картинок текстом погрешность просто огромная. Особенно если еще тонну цензуры поверх нейронки наложить и в ручную веса подкручивать. У меня сейчас есть один хобби проект, где я пытаюсь генерить изображения блюд по их описаниям в меню. Там иногда такой артхаус получается, что я даже не знаю, можно ли такое релизить.

А статья о проблемах оценки производительности LLM. Сейчас есть много разных тестов, но они все довольно мутные и часто не отражают реальной картины для конечного пользователя. Выходит какая-то новая LLM, ее пиарят тем, что она тесты лучше других прошла. А на практике ничего она не может. Ловит немного хайпа и уходит в забвение после релиза.

Пользователь отредактировал комментарий 27 марта 2024, 21:56

reader

1

Погрешность есть, но до какого-то момента она неприемлимая, после достижения определенного порога становится приемлимой. Этот порог может быть разным в разных случаях, но субъективно его прохождение может расцениваться как переход количества в качество.
Конечно оценивать перфоманс LLM в циферках - сложно, экспериментируют с тестами и так и сяк. Ну и подгонять модели под тесты тоже можно)

fallinmyhand Патриот в Мерси Софтваре

-1

ну милиарды не зарабротать, если говорить правду "ну мы вот чуточку улучшили нейросеть и добавили другой функционал"

Pavel Veinik CEO в Hard & Soft Skills

1

ссылки явно не хватает
Как я понимаю, это https://github.com/google/BIG-bench
и текст https://arxiv.org/pdf/2206.04615.pdf

Войдите, чтобы оставить комментарий