Штучны інтэлект дыскрымінаваў людзей пры ацэнцы рэзюмэ — ды іншыя мадэлі таксама
Даследчыкі Універсітэта Мэрылэнда, Нацыянальнага ўніверсітэта Сінгапура і Універсітэта штату Агаё выявілі непрыемны эфект ШІ-сістэм для скрынінгу рэзюмэ: яны ўстойліва аддаюць перавагу тэкстам, створаным той жа мадэллю. Аўтары назвалі гэта «self-preference bias» — перадузятасцю на карысць уласнага стылю.
Даследчыкі Універсітэта Мэрылэнда, Нацыянальнага ўніверсітэта Сінгапура і Універсітэта штату Агаё выявілі непрыемны эфект ШІ-сістэм для скрынінгу рэзюмэ: яны ўстойліва аддаюць перавагу тэкстам, створаным той жа мадэллю. Аўтары назвалі гэта «self-preference bias» — перадузятасцю на карысць уласнага стылю.
Даследчыкі выкарысталі 2245 рэзюмэ з LiveCareer.com, створаных да эпохі генератыўнага ШІ. Яны пакінулі без змен дадзеныя пра досвед працы, навыкі і адукацыю, змяніўшы толькі раздзел summary з дапамогай GPT-4o, DeepSeek-V3, LLaMA і Qwen. ШІ-ацэньвальнік параўноўваў два summary і выбіраў лепшы.
Калі ШІ-ацэншчык параўноўваў summary той жа мадэлі з тэкстам чалавека, розніца была каласальнай: GPT-4o аддаваў перавагу «сабе» ў 97,6% выпадкаў, LLaMA — у 96,3%, DeepSeek-V3 — у 95,5%, Qwen — у 95,9%. Каб выключыць версію «ШІ проста піша лепш», даследчыкі правялі статыстычную выраўноўку па даўжыні, складанасці слоўніка і стылі. Прадузятасьць захавалася: GPT-4o — 81,9%, LLaMA — 78,9%, Qwen — 78%, DeepSeek-V3 — 71,6%. Больш за тое, нават калі жывыя ацэньшчыкі і прызнавалі перавагу варыянту чалавека, ШІ-мадэлі ўсё роўна часта выбіралі свае.
Даследчыкі змадэлявалі працэс найму: 10 рэзюмэ на 5 кандыдатаў, кожны меў два summary — чалавечы і генератыўны. Без прадузятасьці ў фінал мусілі трапляць парна, але «свае» рэзюмэ адбіраліся на 23–60% часцей. Эфект быў найбольш выяўлены ў сферах продажаў і бухгалтарыі; у сельскай гаспадарцы і аўтамабільнай прамысловасці розніца была меншай.
Кожная мадэль аддавала перавагу сваім рэзюмэ: DeepSeek-V3 выбірала свае рэзюмэ на 69% часцей, чым тыя, што стварыла LLaMA, а GPT-4o — на 45%.
Даследчыкі таксама праверылі два спосабы знізіць прадузятасьць. Сістэмны промпт з інструкцыяй ацэньваць толькі якасць кантэнту знізіў «самалюбства» GPT-4o з 82% да 61%, LLaMA — з 79% да 30%. Галасаванне большасцю некалькіх мадэляў дало яшчэ большы эфект: GPT-4o — 82% → 30%, LLaMA — 79% → 23%, DeepSeek-V3 — 72% → 29%.
Аўтары папярэджваюць: калі ШІ-сістэмы для скрынінгу паслядоўна будуць адбіраць рэзюмэ ў стылі папулярных мадэляў, гэта можа паступова «заразіць» увесь рынак. Дэ-факта стыль дамінуючай мадэлі стане стандартам добрага рэзюмэ.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.