Учёные предупреждают: ИИ-системы, обученные на контенте, который сгенерирован другими ИИ-системами, через пару поколений начнут генерировать мусор

В сети плодится контент, порождённый искусственным интеллектом. Эксперты в области машинного обучения считают, что в дальнейшем ИИ-алгоритмы, которые тренировались на нём, а не на аутентичном материале, будут выдавать всё менее качественные результаты.

1 комментарий

В мае британско-канадская группа учёных опубликовала работу на тему того, что будет, если несколько поколений ИИ-систем тренировать на контенте, сгенерированном подобными им системами.

Один из соавторов исследования — учёный и профессор Кембриджского университета Росс Андерсон — отмечает, что текст будет становиться мусором. Например, в одном случае ИИ-система 9 поколения, обученная на материале о средневековой архитектуре, выдавала что-то невнятное о зайцах. Такой деградации моделей (model collapse) подвержены и генераторы изображений. 

Большие языковые модели вроде тех, что в основе ChatGPT, тренировались на огромных массивах данных из интернета, которые до недавнего времени в большинстве своём были созданы людьми. Но по мере распространения ИИ-инструментов сеть наводняют результаты их «труда» и попадают в тренировочные датасеты новых моделей.

«Крёстный отец ИИ»: чатботы глупее собак и котов, и видеть в ИИ угрозу — абсурдно
По теме
«Крёстный отец ИИ»: чатботы глупее собак и котов, и видеть в ИИ угрозу — абсурдно

Это значит, что постепенно их качество и точность будет падать, а вероятность ошибок и бессмыслицы — возрастать. Тем более что ИИ не умеет отличать правду от вымысла и начинает неверно истолковывать то, что считает правдивым, говорят учёные.

Для примера Андерсон взял Моцарта и его менее знаменитого современника, итальянского композитора Антонио Сальери. Если обучить модель на работах Моцарта, то получится похоже, но без искры таланта австрийца — условно это Сальери. Если на музыке Сальери обучить новую модель и так — ещё несколько поколений, то их звучание будет всё больше отдаляться от оригинала.

По словам учёных, проблема связана с восприятием ИИ вероятности — со временем менее вероятные события появляются в результатах моделей всё реже, и это ограничивает то, что ИИ следующего поколения будет считать вероятным.

Стартап с «AI» в названии и месяц возрастом привлёк $113 млн
По теме
Стартап с «AI» в названии и месяц возрастом привлёк $113 млн
OpenAI получила первый иск за «галлюцинации» у ChatGPT
По теме
OpenAI получила первый иск за «галлюцинации» у ChatGPT

Читать на dev.by