ИИ дискриминирует людей при оценке резюме — и другие модели тоже
Исследователи из Мэрилендского университета, Национального университета Сингапура и Университета штата Огайо обнаружили неприятный эффект ИИ-систем, используемых для скрининга резюме: они систематически отдают предпочтение тем, что написаны той же самой моделью. Авторы назвали это явление «self-preference bias» — предвзятостью в пользу собственного стиля.
Исследователи из Мэрилендского университета, Национального университета Сингапура и Университета штата Огайо обнаружили неприятный эффект ИИ-систем, используемых для скрининга резюме: они систематически отдают предпочтение тем, что написаны той же самой моделью. Авторы назвали это явление «self-preference bias» — предвзятостью в пользу собственного стиля.
Для исследования использовался датасет из 2245 резюме с LiveCareer.com — все написаны людьми до эпохи генеративного ИИ. Исследователи не трогали содержательную часть — опыт работы, навыки, образование — и заменили только раздел summary, переписав его с помощью разных моделей: GPT-4o, DeepSeek-V3, LLaMA и Qwen. Затем ИИ-оценщику предлагали сравнить два варианта summary и выбрать лучший.
Когда оценщик сравнивал summary, написанный той же моделью, с текстом человека, разница в предпочтениях была огромной: GPT-4o выбирал «себя» в 97,6% случаев, LLaMA — в 96,3%, DeepSeek-V3 — в 95,5%, Qwen — в 95,9%. Чтобы исключить предположение, что ИИ просто пишет лучше, исследователи статистически выровняли резюме по длине, сложности словаря и стилю. Предвзятость никуда не делась: GPT-4o сохранял её в 81,9% случаев, LLaMA — в 78,9%, Qwen — в 78%, DeepSeek-V3 — в 71,6%. Более того, даже когда живые оценщики признавали вариант, написанный человеком, более качественным, ИИ-модели всё равно нередко выбирали «своё».
Исследователи смоделировали реальный наём: десять резюме на пять кандидатов, у каждого по два варианта — с человеческим summary и сгенерированным. Без предвзятости в финал должны были проходить поровну. По факту резюме с summary от «своей» модели отбирались на 23-60% чаще. Особенно сильный эффект наблюдался в деловых профессиях вроде продаж и бухгалтерии — в сельском хозяйстве и автомобильной отрасли разница была меньше.
Каждая модель отдавала большее предпочтение своим резюме над теми, что написали другие модели. DeepSeek-V3 выбирала свои резюме на 69% чаще, чем написанные LLaMA, а GPT-4o выбирала свои на 45%.
Исследователи также проверили два способа снизить предвзятость. Системный промпт с инструкцией оценивать только качество контента снизил «самолюбие» у GPT-4o с 82% до 61%, у LLaMA — с 79% до 30%. Голосование большинством нескольких моделей дало ещё лучший результат: GPT-4o показала снижение с 82% до 30%, LLaMA — с 79% до 23%, DeepSeek-V3 — с 72% до 29%.
Авторы предупреждают, что если в ходе ИИ-скрининга последовательно отбираются резюме в стиле популярных моделей, это может постепенно «заразить» весь рынок. Тогда стиль доминирующей модели де-факто станет стандартом хорошего резюме.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.