GPT-4 со временем «тупеет», и никто не знает, почему
Пользователи заметили, что со временем модель «под капотом» ChatGPT работает всё хуже. Возможно, им не показалось: на этой неделе вышло совместное исследование учёных из Стэнфорда и Калифорнийского университета в Беркли, которые сравнили качество ответов чатбота на базе GPT-4 и её предшественницы GPT-3.5. Разница оказалась колоссальной, и не в пользу новейшей «мультимодальной» модели, которая помимо текстового ввода поддерживает картинки.
Причём в плохую сторону различается не только производительность, но и в целом GPT-4 (к слову, доступная по подписке за деньги) со временем показывает всё худшие результаты на тестовых заданиях. Среди них — математические задачи, вопросы на «чувствительные» темы, написание кода и задания на обработку изображений. Точность GPT-4 скатилась с 97,6% в марте до 2,4% в июне. Также модель стала допускать больше ошибок при программировании и менее охотно отвечать на деликатные вопросы.
Однако почему это произошло, авторы работы не объясняют. Также они сомневаются, что о деградации своей модели знают разработчики из OpenAI, и в их способности отслеживать изменения, чтобы предотвратить негативную тенденцию. По наблюдениям пользователей, модель стала генерировать ответы быстрее, но их качество снижается — они списывают это на то, что OpenAI пытается сокращать издержки. Обсуждать проблему на форуме компании начали ещё в мае. По мнению некоторых экспертов, причина заключается в «коренной переработке» модели, но в OpenAI это опровергли и — по крайней мере на прошлой неделе — сказали, что наоборот стараются сделать каждую новую версию умнее предыдущей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Есть мнение что когда сетку пытаются учить новому в объёмах, которые превышают её capacity это приводит к "размыванию" ранее обученного.