17% скидка на размещение рекламы на площадках devby — до 20 ноября. Клац!
Support us

Anthropic профинансирует разработку новых тестов для оценки безопасности ИИ

Компания запускает программу по финансированию разработки новых типов тестов, способных оценивать производительность и эффективность моделей искусственного интеллекта.

Оставить комментарий
Anthropic профинансирует разработку новых тестов для оценки безопасности ИИ

Компания запускает программу по финансированию разработки новых типов тестов, способных оценивать производительность и эффективность моделей искусственного интеллекта.

Согласно условиям программы, Anthropic будет платить сторонним организациям за разработку тестов, которые могут «эффективно измерять расширенные возможности моделей искусственного интеллекта». «Наши инвестиции в эти оценки направлены на повышение уровня безопасности ИИ во всей области. Разработка высококачественных оценок, связанных с безопасностью, остается сложной задачей, и спрос опережает предложение», — заявили в Anthropic.

У ИИ-моделей существуют проблемы с бенчмаркингом. Наиболее часто используемые сегодня бенчмарки для ИИ плохо отражают то, как обычный пользователь на самом деле использует тестируемые системы. Также у экспертов есть сомнения, что некоторые тесты, которые были выпущены еще до появления современного генеративного ИИ, измеряют действительно то, что они должны измерять, учитывая время их создания.

Компания призывает к созданию таких тестов, в которых будет оцениваться способность модели к выполнению кибератак, «усовершенствованию» оружия массового уничтожения, манипулированию, обману и другим задачам. В случае с рисками ИИ, связанными с национальной безопасностью и обороной, Anthropic планирует разработать «систему раннего предупреждения» для выявления и оценки рисков.

Однако у подобной инициативы есть и критики, которые указывают, что компания стремится финансировать те разработки, которые будут соответствовать ее классификации безопасности ИИ. Это может привести к тому, что кандидаты на участие в программе будут вынуждены принимать те определения «безопасного» и «рискованного» ИИ, с которыми они будут не согласны. Также многие эксперты сомневаются, что необходимо делать акцент на изучении рисков, связанных с ядерным оружием, — намного полезнее исследовать насущные проблемы регулирования ИИ, например, склонность моделей к галлюцинациям.

OpenAI и Anthropic собирают данные с сайтов несмотря на запреты
OpenAI и Anthropic собирают данные с сайтов несмотря на запреты
По теме
OpenAI и Anthropic собирают данные с сайтов несмотря на запреты
Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini
Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini
По теме
Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini
Один из основателей Instagram стал директором по продуктам Anthropic
Один из основателей Instagram стал директором по продуктам Anthropic
По теме
Один из основателей Instagram стал директором по продуктам Anthropic
Читайте также
ИИ сначала поднимет зарплаты, а потом обрушит — учёные
ИИ сначала поднимет зарплаты, а потом обрушит — учёные
ИИ сначала поднимет зарплаты, а потом обрушит — учёные
ИИ научился «видеть по-человечески»: разбираться в смысле, а не пикселях
ИИ научился «видеть по-человечески»: разбираться в смысле, а не пикселях
ИИ научился «видеть по-человечески»: разбираться в смысле, а не пикселях
Бигтех мухлюет с отчётностью — мнение инвестора, предсказавшего кризис 2008 года
Бигтех мухлюет с отчётностью — мнение инвестора, предсказавшего кризис 2008 года
Бигтех мухлюет с отчётностью — мнение инвестора, предсказавшего кризис 2008 года
Google внедряет агентный шопинг: ИИ сам ищет, сравнивает и покупает товары
Google внедряет агентный шопинг: ИИ сам ищет, сравнивает и покупает товары
Google внедряет агентный шопинг: ИИ сам ищет, сравнивает и покупает товары

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.