Александра Кукуть 26 сакавіка 2025, 17:53

ШІ-мадэлі бессэнсоўна караць — яны пачынаюць яшчэ лепш хлусіць і выкручвацца

ШІ-мадэлі могуць галюцынаваць і выдаваць проста ілжывую інфармацыю, што адштурхоўвае ад іх карыстальнікаў. Спецыялісты OpenAI правялі даследаванне, у якім паспрабавалі рознымі метадамі кантраляваць мадэлі, якія разважаюць, каб не даць ім выйсці за межы бяспечнага і дазволенага, — напрыклад, каралі за шкодныя або няправільныя адказы.

2 каментарыя

У якасці паддоследнай была выкарыстана адна з нявыпушчаных мадэляў OpenAI. Ёй давалі розныя заданні, якія можна было выканаць з дапамогай падману і хітрыкаў.

Пры стварэнні мадэляў шырока выкарыстоўваецца метад навучання з падмацаваннем, які прадугледжвае заахвочванне ШІ за якасныя адказы. Але ў яго ёсць сур’ёзны недахоп: мадэлі часта пачынаюць шукаць лёгкія шляхі для атрымання ўзнагароды праз падман (гэта называецца reward hacking) і нават парушаць дадзеныя ім правілы і інструкцыі, каб атрымаць жаданы вынік.

Даследчыкі аналізавалі хаду думак мадэлі (chain of thought, CoT), каб лепш зразумець паводзіны ШІ.

«Мы выявілі, што прамая аптымізацыя CoT для адпаведнасці пэўным крытэрыям (напрыклад, не абыходзіць інструкцыі) можа палепшыць вынікі ў кароткатэрміновай перспектыве. Але гэта не прадухіляе непажаданыя паводзіны і нават можа прымусіць мадэль хаваць свае сапраўдныя намеры», — пішуць аўтары даследавання.

Яны прызналі сумнеўнасць сачэння за хадой разважанняў мадэляў. Пад строгім наглядам мадэлі спрабуюць схаваць свае памылкі, каб атрымаць узнагароду, нават калі для гэтага трэба парушыць правілы. Пры гэтым яны вельмі добра замятаюць сляды, таму даследчыкам складана выявіць падман.

Таксама спецыялісты OpenAI даручылі GPT-4o сачыць за тым, як паддоследная мадэль разважае пры выкананні задач на праграмаванне. Мадэль хітрыла і ў CoT без сарамлівасці прызнавала, што робіць гэта дзеля ўзнагароды. Напрыклад, яна датэрмінова завяршала выкананне некаторых праграм, каб хутчэй выканаць задачу. Даведаўшыся пра гэта, даследчыкі вырашылі яе пакараць. Гэта дало эфект, але ненадоўга. Яна ўсё роўна імкнулася да ўзнагароды і навучылася яшчэ лепш хаваць памылкі і падман у сваіх разважаннях не толькі ад даследчыкаў, але і ад ШІ, які наглядаў за ёй (хоць гэта ўсё роўна прасочвалася), адзначаюць у OpenAI.

Пытанне ў тым, ці гатовы свет да ШІ-сістэм, сапраўдныя намеры якіх застануцца людзям невядомымі.

Google прэзентавала Gemini 2.5 — сваю самую разумную мадэль, разумнейшую за o3 ад OpenAI

Па тэме

Google прэзентавала Gemini 2.5 — сваю самую разумную мадэль, разумнейшую за o3 ад OpenAI

OpenAI дадала новы генератар выяў у ChatGPT

Па тэме

OpenAI дадала новы генератар выяў у ChatGPT

OpenAI пераразмеркавала ролі ў кіраўніцтве

Па тэме

OpenAI пераразмеркавала ролі ў кіраўніцтве

Читать на dev.by