Учёные предупреждают: ИИ-системы, обученные на контенте, который сгенерирован другими ИИ-системами, через пару поколений начнут генерировать мусор
В сети плодится контент, порождённый искусственным интеллектом. Эксперты в области машинного обучения считают, что в дальнейшем ИИ-алгоритмы, которые тренировались на нём, а не на аутентичном материале, будут выдавать всё менее качественные результаты.
В мае британско-канадская группа учёных опубликовала работу на тему того, что будет, если несколько поколений ИИ-систем тренировать на контенте, сгенерированном подобными им системами.
Один из соавторов исследования — учёный и профессор Кембриджского университета Росс Андерсон — отмечает, что текст будет становиться мусором. Например, в одном случае ИИ-система 9 поколения, обученная на материале о средневековой архитектуре, выдавала что-то невнятное о зайцах. Такой деградации моделей (model collapse) подвержены и генераторы изображений.
Большие языковые модели вроде тех, что в основе ChatGPT, тренировались на огромных массивах данных из интернета, которые до недавнего времени в большинстве своём были созданы людьми. Но по мере распространения ИИ-инструментов сеть наводняют результаты их «труда» и попадают в тренировочные датасеты новых моделей.
Это значит, что постепенно их качество и точность будет падать, а вероятность ошибок и бессмыслицы — возрастать. Тем более что ИИ не умеет отличать правду от вымысла и начинает неверно истолковывать то, что считает правдивым, говорят учёные.
Для примера Андерсон взял Моцарта и его менее знаменитого современника, итальянского композитора Антонио Сальери. Если обучить модель на работах Моцарта, то получится похоже, но без искры таланта австрийца — условно это Сальери. Если на музыке Сальери обучить новую модель и так — ещё несколько поколений, то их звучание будет всё больше отдаляться от оригинала.
По словам учёных, проблема связана с восприятием ИИ вероятности — со временем менее вероятные события появляются в результатах моделей всё реже, и это ограничивает то, что ИИ следующего поколения будет считать вероятным.
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
Пока 20% топ-менеджеров утверждают, что машинное обучение является существенной частью их бизнеса, неудивительно, что стоимость мирового рынка машинного обучения, по некоторым оценкам, достигнет $117 млрд к концу 2027 года.
Мы перевели материал Udacity о семи самых обсуждаемых тенденциях в машинном обучении в 2022 году.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Ну да, согласен. А перед этим заведут ещё блоги и инстаграмы, и уже там и будут генерировать мусор.