Аддзел навін 20 ліпеня 2023, 16:05

GPT-4 з часам «тупее», і ніхто не ведае, чаму

Карыстальнікі заўважылі, што з часам мадэль «пад капотам» ChatGPT працуе ўсё горш. Магчыма, ім не здалося: на гэтым тыдні выйшла сумеснае даследаванне навукоўцаў са Стэнфарда і Каліфарнійскага ўніверсітэта ў Берклі, якія параўналі якасць адказаў чатбота на базе GPT-4 і яе папярэдніцы GPT-3.5. Розніца выявілася каласальнай, і не на карысць найноўшай «мультымадальнай» мадэлі, якая акрамя тэкставага ўводу падтрымлівае карцінкі.

1 каментарый

Карыстальнікі заўважылі, што з часам мадэль «пад капотам» ChatGPT працуе ўсё горш. Магчыма, ім не здалося: на гэтым тыдні выйшла сумеснае даследаванне навукоўцаў са Стэнфарда і Каліфарнійскага ўніверсітэта ў Берклі, якія параўналі якасць адказаў чатбота на базе GPT-4 і яе папярэдніцы GPT-3.5. Розніца выявілася каласальнай, і не на карысць найноўшай «мультымадальнай» мадэлі, якая акрамя тэкставага ўводу падтрымлівае карцінкі.

Прычым у дрэнны бок адрозніваецца не толькі прадукцыйнасць, але і ў цэлым GPT-4 (дарэчы, даступная па падпісцы за грошы) з часам паказвае ўсё горшыя вынікі на тэставых заданнях. Сярод іх — матэматычныя задачы, пытанні на далікатныя тэмы, напісанне кода і заданні на апрацоўку выяў. Дакладнасць GPT-4 скацілася ад 97,6% у сакавіку да 2,4% у чэрвені. Таксама мадэль стала дапускаць больш памылак пры праграмаванні і менш ахвотна адказваць на далікатныя пытанні.

The paper doesn’t get at why the degradation in abilities is happening. We don’t even know if OpenAI knows this is occuring.
— Ethan Mollick (@emollick) July 19, 2023

Аднак чаму гэта адбылося, аўтары працы не тлумачаць. Таксама яны сумняваюцца, што пра дэградацыю сваёй мадэлі ведаюць распрацоўшчыкі з OpenAI, і ў іх здольнасці адсочваць змены, каб прадухіліць негатыўную тэндэнцыю. Паводле назіранняў карыстальнікаў, мадэль стала генераваць адказы хутчэй, але іх якасць зніжаецца — яны спісваюць гэта на тое, што OpenAI спрабуе скарачаць выдаткі. Абмяркоўваць праблему на форуме кампаніі пачалі яшчэ ў маі. На думку некаторых экспертаў, прычына палягае ў «карэннай перапрацоўцы» мадэлі, але ў OpenAI гэта абверглі і — прынамсі на мінулым тыдні — сказалі, што наадварот імкнуцца зрабіць кожную новую версію разумнейшай за папярэднюю.