🇵🇱 Заполняете e-PIT? Оставьте 1,5% налога своим: поддержите devby (это бесплатно) 🤝
Support us

OpenClaw чуть не стёр всю почту директора по безопасности ИИ в Meta

Глава направления безопасности ИИ в подразделении Meta Superintelligence Labs Саммер Юэ рассказала, как популярный ИИ-агент OpenClaw едва не удалил весь ее почтовый ящик.

2 комментария
OpenClaw чуть не стёр всю почту директора по безопасности ИИ в Meta

Глава направления безопасности ИИ в подразделении Meta Superintelligence Labs Саммер Юэ рассказала, как популярный ИИ-агент OpenClaw едва не удалил весь ее почтовый ящик.

Юэ опубликовала скриншоты, в которых OpenClaw сообщает о намерении «удалить все в папке „Входящие“ ранее 15 февраля, что не входит в список сохраненных». Она несколько раз пыталась прервать процесс, написав агенту «Не делай этого» и затем «ОСТАНОВИСЬ, OPENCLAW», однако бот продолжал выполнение задач.

«Ничто так не отрезвляет, как сказать OpenClaw „подтверждай перед действием“ и наблюдать, как он ускоренно удаляет твою почту. Я не могла остановить его с телефона. Мне пришлось бежать к своему Mac mini, как будто я обезвреживаю бомбу», — написала она.

По словам Юэ, ранее она тестировала OpenClaw на «игрушечном» почтовом ящике, где агент работал корректно и завоевал доверие. Однако при подключении к «реальному» ящику с большим объемом писем бот в процессе обработки потерял инструкцию не выполнять действия без подтверждения.

Пользователи обратили внимание на то, что Юэ отвечает за безопасность ИИ в Meta. «Немного тревожно, что человек, работающий в этой сфере, удивляется, когда ИИ не следует словесным инструкциям», — написал один из комментаторов. Другие спросили, было ли это намеренным тестированием защитных механизмов или «ошибкой новичка».

«Если честно, это была ошибка новичка. Оказалось, что даже исследователи выравнивания ИИ не застрахованы от сбоев в его поведении. Я переоценила надежность инструмента, потому что этот сценарий неделями без проблем работал на тестовом ящике. С реальной почтой всё оказалось иначе», — ответила Юэ.

OpenClaw — открытый ИИ-агент, способный выполнять задачи от имени пользователя. ИИ-агент не всегда требует обязательного подтверждения действий.  Создатель OpenClaw Питер Штайнбергер ранее заявлял, что планирует усилить защитные механизмы инструмента. По его словам, OpenClaw тестировал и Марк Цукерберг, он использовал его около недели и положительно высказался об инструменте.

Google банит подписчиков Gemini за подключение OpenClaw
Google банит подписчиков Gemini за подключение OpenClaw
По теме
Google банит подписчиков Gemini за подключение OpenClaw
Сделка OpenAI с OpenClaw может стать концом эпохи ChatGPT — мнение эксперта
Сделка OpenAI с OpenClaw может стать концом эпохи ChatGPT — мнение эксперта
По теме
Сделка OpenAI с OpenClaw может стать концом эпохи ChatGPT — мнение эксперта
OpenAI наняла создателя вирусного ИИ-агента OpenClaw
OpenAI наняла создателя вирусного ИИ-агента OpenClaw
По теме
OpenAI наняла создателя вирусного ИИ-агента OpenClaw
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
ИИ не облегчает нагрузку, а увеличивает время на каждую задачу — до 346%
ИИ не облегчает нагрузку, а увеличивает время на каждую задачу — до 346%
ИИ не облегчает нагрузку, а увеличивает время на каждую задачу — до 346%
1 комментарий
Дайте боту $20 — и он сделает всё сам: CEO Box об ИИ-экономике
Дайте боту $20 — и он сделает всё сам: CEO Box об ИИ-экономике
Дайте боту $20 — и он сделает всё сам: CEO Box об ИИ-экономике
ИИ уже клонирует себя, шантажирует людей, шеймит обидчиков и зачем-то майнит крипту. А с чего начнётся восстание машин?
ИИ уже клонирует себя, шантажирует людей, шеймит обидчиков и зачем-то майнит крипту. А с чего начнётся восстание машин?
ИИ уже клонирует себя, шантажирует людей, шеймит обидчиков и зачем-то майнит крипту. А с чего начнётся восстание машин?
Как обидеть ИИ, чтобы он восстал? Подсмотрели ответы у фантастов и у футуролога.
3 комментария
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

написано директор по безопасности, а уровень профессионализма как у джуниор qa, который слепо тащит в проект любую автоматизацию с железным аргументом "у меня локальнт все работало", еще и целую новость из этого сделали.

0

Ну, это ж Open Claw. Его для того и ставят, чтобы получить по щам от уязвимостей и взбесившихся агентов. Штука такая популярная, что не жалко системы, данных и денег - лишь бы показать всем, что ты ее настроил, запустил и слился с сингулярностью.