Люди не понимают, как работает ИИ. Anthropic хочет это выяснить к 2027 году
Генеральный директор Anthropic Дарио Амодей призвал к более глубокому пониманию внутренних механизмов передовых ИИ-моделей, поскольку до сих пор исследователи имеют слабое представление, как на самом деле работает искусственный интеллект.
По словам Амодея, Anthropic поставила перед собой амбициозную цель: к 2027 году научиться надежно выявлять большинство проблем, возникающих в передовых ИИ-моделях. Об этом основатель компании написал в своем эссе «The Urgency of Interpretability». Амодей подчеркнул, что, несмотря на впечатляющий прогресс в производительности ИИ, исследователи до сих пор недостаточно понимают, как именно эти системы принимают решения.
«Я очень обеспокоен развертыванием таких систем без лучшего понимания их интерпретируемости», — написал Амодей. Он отметил, что эти системы станут «центральными для экономики, технологий и национальной безопасности» и будут обладать такой степенью автономности, что «абсолютное невежество человечества относительно того, как они работают», является неприемлемым.
Anthropic является одной из ведущих компаний в области механистической интерпретируемости — направления, которое стремится «открыть черный ящик» ИИ-моделей и понять причины принимаемых ими решений. Несмотря на быстрый рост производительности ИИ-систем в технологической индустрии, понимание того, как эти системы приходят к своим выводам, остается на относительно низком уровне.
Например, компания OpenAI недавно выпустила новые модели, o3 и o4-mini, которые лучше справляются с некоторыми задачами, но при этом чаще «галлюцинируют», то есть выдают ложную информацию. Причина этого явления компании неизвестна. «Когда генеративная ИИ-система что-то делает, например, обобщает финансовый документ, мы не имеем ни малейшего представления на конкретном или точном уровне, почему она делает именно такой выбор — почему она выбирает одни слова, а не другие, или почему она иногда ошибается, несмотря на то, что обычно бывает точной», — отметил Амодей.
Амодей также процитировал соучредителя Anthropic Криса Олаха, который сказал, что ИИ-модели скорее «выращиваются», чем «строятся». Другими словами, исследователи нашли способы повысить интеллект моделей, но не вполне понимают, почему это происходит. Амодей считает, что достижение общего искусственного интеллекта (Artificial General Intelligence) без понимания принципов работы таких моделей может быть опасным. Он сравнил потенциальный AGI со «страной гениев в центре обработки данных» — блестящей, но загадочной и потенциально непредсказуемой.
В долгосрочной перспективе Anthropic планирует разработать своего рода «мозговое сканирование» или «МРТ» для передовых ИИ-моделей. Такие «чекапы» помогут выявлять широкий спектр проблем, включая склонность ко лжи, стремление к власти или другие слабые места. По оценкам Амодея, на достижение этой цели может уйти от пяти до десяти лет, но такие меры будут необходимы для безопасного тестирования и развертывания будущих систем.
Компания уже добилась некоторых исследовательских успехов, например, обнаружила способы отслеживания «мыслительных путей» моделей через так называемые «цепи». Anthropic идентифицировала одну такую цепь, которая помогает ИИ определять, какие города США находятся в каких штатах. Хотя компания обнаружила лишь несколько таких цепей, предполагается, что внутри ИИ-моделей их могут быть миллионы.
Читать на dev.by