Дапамажыце dev.by 🤍
Падтрымаць

ШІ-мадэлі бессэнсоўна караць — яны пачынаюць яшчэ лепш хлусіць і выкручвацца

ШІ-мадэлі могуць галюцынаваць і выдаваць проста ілжывую інфармацыю, што адштурхоўвае ад іх карыстальнікаў. Спецыялісты OpenAI правялі даследаванне, у якім паспрабавалі рознымі метадамі кантраляваць мадэлі, якія разважаюць, каб не даць ім выйсці за межы бяспечнага і дазволенага, — напрыклад, каралі за шкодныя або няправільныя адказы.

2 каментарыя
ШІ-мадэлі бессэнсоўна караць — яны пачынаюць яшчэ лепш хлусіць і выкручвацца

ШІ-мадэлі могуць галюцынаваць і выдаваць проста ілжывую інфармацыю, што адштурхоўвае ад іх карыстальнікаў. Спецыялісты OpenAI правялі даследаванне, у якім паспрабавалі рознымі метадамі кантраляваць мадэлі, якія разважаюць, каб не даць ім выйсці за межы бяспечнага і дазволенага, — напрыклад, каралі за шкодныя або няправільныя адказы.

У якасці паддоследнай была выкарыстана адна з нявыпушчаных мадэляў OpenAI. Ёй давалі розныя заданні, якія можна было выканаць з дапамогай падману і хітрыкаў.

Пры стварэнні мадэляў шырока выкарыстоўваецца метад навучання з падмацаваннем, які прадугледжвае заахвочванне ШІ за якасныя адказы. Але ў яго ёсць сур’ёзны недахоп: мадэлі часта пачынаюць шукаць лёгкія шляхі для атрымання ўзнагароды праз падман (гэта называецца reward hacking) і нават парушаць дадзеныя ім правілы і інструкцыі, каб атрымаць жаданы вынік.

Даследчыкі аналізавалі хаду думак мадэлі (chain of thought, CoT), каб лепш зразумець паводзіны ШІ.

«Мы выявілі, што прамая аптымізацыя CoT для адпаведнасці пэўным крытэрыям (напрыклад, не абыходзіць інструкцыі) можа палепшыць вынікі ў кароткатэрміновай перспектыве. Але гэта не прадухіляе непажаданыя паводзіны і нават можа прымусіць мадэль хаваць свае сапраўдныя намеры», — пішуць аўтары даследавання.

Яны прызналі сумнеўнасць сачэння за хадой разважанняў мадэляў. Пад строгім наглядам мадэлі спрабуюць схаваць свае памылкі, каб атрымаць узнагароду, нават калі для гэтага трэба парушыць правілы. Пры гэтым яны вельмі добра замятаюць сляды, таму даследчыкам складана выявіць падман.

Таксама спецыялісты OpenAI даручылі GPT-4o сачыць за тым, як паддоследная мадэль разважае пры выкананні задач на праграмаванне. Мадэль хітрыла і ў CoT без сарамлівасці прызнавала, што робіць гэта дзеля ўзнагароды. Напрыклад, яна датэрмінова завяршала выкананне некаторых праграм, каб хутчэй выканаць задачу. Даведаўшыся пра гэта, даследчыкі вырашылі яе пакараць. Гэта дало эфект, але ненадоўга. Яна ўсё роўна імкнулася да ўзнагароды і навучылася яшчэ лепш хаваць памылкі і падман у сваіх разважаннях не толькі ад даследчыкаў, але і ад ШІ, які наглядаў за ёй (хоць гэта ўсё роўна прасочвалася), адзначаюць у OpenAI.

Пытанне ў тым, ці гатовы свет да ШІ-сістэм, сапраўдныя намеры якіх застануцца людзям невядомымі.

Google прэзентавала Gemini 2.5 — сваю самую разумную мадэль разумнейшую за o3 ад OpenAI
Google прэзентавала Gemini 2.5 — сваю самую разумную мадэль, разумнейшую за o3 ад OpenAI
Па тэме
Google прэзентавала Gemini 2.5 — сваю самую разумную мадэль, разумнейшую за o3 ад OpenAI
OpenAI дадала новы генератар выяў у ChatGPT
OpenAI дадала новы генератар выяў у ChatGPT
Па тэме
OpenAI дадала новы генератар выяў у ChatGPT
OpenAI пераразмеркавала ролі ў кіраўніцтве
OpenAI пераразмеркавала ролі ў кіраўніцтве
Па тэме
OpenAI пераразмеркавала ролі ў кіраўніцтве
Чытайце таксама
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
BBC: система распознавания лиц в Москве состоит из четырех алгоритмов. Они определяют эмоции
BBC: система распознавания лиц в Москве состоит из четырех алгоритмов. Они определяют эмоции
BBC: система распознавания лиц в Москве состоит из четырех алгоритмов. Они определяют эмоции
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

shipishi
shipishi Должность в Белокрылые лошадки
0

садо-мазо какое-то

1

Статья норм, но как-то так написана, что трудно понять, о чем речь.

Тут смешаны две разные вещи. Reward Hacking - это термин из мира, где ИИ решает задачи с хорошо понятной целью, которую можно оценить формулой. Например, игра в шахматы. Каждая позиция имеет оценку, каждый ход меняет ее в полжительную или отрицательную сторону. Значит, после каждого хода алгоритму можно дать фитбек, а он будет на него реагировать. Может получится так, что модель будет получать хороший фитбек за какие-то неправильные действия. Например, если она найдет баг в шахматной программе, который мгновенно приводит к победе, она тут же начнет им пользоваться. Это и есть reward hacking. Это обычно означает, что способ оценки и фитбек не достаточно хороши. Подбор reward function - это самая сложная проблема в таких алгоритмах.

С LLM все сложнее, т.к. нету четкого способа оценить ответ. Reward Hacking тут заключается в другом. Модель может начать давать такие ответы, которые кажутся хорошими, но на самом деле они предвзяты или искажены. Довольно очевидный способ обнаруждения такого - мониторить "мысли". По умолчанию модели не пытаются ничего в них скрывать и выдают себя с потрохами. Но есть интересные исследования, в которым модели начинали менять свои мысли, когда узнавали, что их читают. Причем, все - это не только особенность какой-то одной компании. Никто не знает, почему и как с этим бороться. Собственно, статья о том, что мониторинг и правка "плохих" мыслей не решают проблему - модель все равно найдет способы работать не так, как задумано, на долгом отрезке времени.