GPT-4 со временем «тупеет», и никто не знает, почему
Пользователи заметили, что со временем модель «под капотом» ChatGPT работает всё хуже. Возможно, им не показалось: на этой неделе вышло совместное исследование учёных из Стэнфорда и Калифорнийского университета в Беркли, которые сравнили качество ответов чатбота на базе GPT-4 и её предшественницы GPT-3.5. Разница оказалась колоссальной, и не в пользу новейшей «мультимодальной» модели, которая помимо текстового ввода поддерживает картинки.
Пользователи заметили, что со временем модель «под капотом» ChatGPT работает всё хуже. Возможно, им не показалось: на этой неделе вышло совместное исследование учёных из Стэнфорда и Калифорнийского университета в Беркли, которые сравнили качество ответов чатбота на базе GPT-4 и её предшественницы GPT-3.5. Разница оказалась колоссальной, и не в пользу новейшей «мультимодальной» модели, которая помимо текстового ввода поддерживает картинки.
Причём в плохую сторону различается не только производительность, но и в целом GPT-4 (к слову, доступная по подписке за деньги) со временем показывает всё худшие результаты на тестовых заданиях. Среди них — математические задачи, вопросы на «чувствительные» темы, написание кода и задания на обработку изображений. Точность GPT-4 скатилась с 97,6% в марте до 2,4% в июне. Также модель стала допускать больше ошибок при программировании и менее охотно отвечать на деликатные вопросы.
The paper doesn’t get at why the degradation in abilities is happening. We don’t even know if OpenAI knows this is occuring.
Однако почему это произошло, авторы работы не объясняют. Также они сомневаются, что о деградации своей модели знают разработчики из OpenAI, и в их способности отслеживать изменения, чтобы предотвратить негативную тенденцию. По наблюдениям пользователей, модель стала генерировать ответы быстрее, но их качество снижается — они списывают это на то, что OpenAI пытается сокращать издержки. Обсуждать проблему на форуме компании начали ещё в мае. По мнению некоторых экспертов, причина заключается в «коренной переработке» модели, но в OpenAI это опровергли и — по крайней мере на прошлой неделе — сказали, что наоборот стараются сделать каждую новую версию умнее предыдущей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Есть мнение что когда сетку пытаются учить новому в объёмах, которые превышают её capacity это приводит к "размыванию" ранее обученного.