ИИ хуже людей резюмирует информацию — по всем параметрам
Искусственный интеллект хуже людей резюмирует документы и, скорее, даже создаёт им дополнительную работу. К такому выводу пришла Amazon по итогам экспериментов, заказанных Австралийской комиссией по ценным бумагам и инвестициям (ASIC).
Исследователи тестировали разные генеративные ИИ-модели, из которых выбрали одну самую многообещающую — опенсорсную Llama2-70B от Meta. Ей скормили тексты пяти ответов на парламентский запрос к аудиторским и консалтинговым фирмам, которые модель должна была резюмировать с фокусом на упоминания ASIC, рекомендации и прочее, а также указать страницы и контекст.
То же задание поручили десяти сотрудникам ASIC разного ранга. Далее работы модели и людей дали группе рецензентов на «слепую» проверку по таким параметрам, как связность, длина, а также тем по тем пунктам, на которых нужно было сфокусироваться в резюме. О том, что в исследовании участвует ИИ, они не знали.
Работы живых сотрудников оказались качественнее работ ИИ по всем критериям во всех пяти случаях: 81% против 47%. Человеческие резюме значительно опережали ИИ в плане поиска ссылок на документы ASIC в длинном тексте. В машинных резюме часто было упущено основное, детали и контекст, акцент мог делаться на второстепенных деталях, могла добавляться некорректная информация, отсутствовала релевантная и присутствовала — нерелевантная информация.
В целом рецензенты посчитали, что ИИ-резюме могут быть контрпродуктивны и создавать ненужную работу, потому что их нужно перепроверять и сверять с оригинальными текстами. При этом отмечается, что у новой версии модели способность резюмировать тексты может быть уже лучше, а также что Amazon повысила производительность испытуемой модели путём кастомизации промптов, а это означает наличие пространства для дальнейших улучшений.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.