Подрядчики Google оценивали точность ответов чатбота наугад, потому что нет времени
Подрядчикам Google, работающим на неё через фирму Appen, было поручено помогать с оценкой ответов чатбота Bard, ограниченный релиз которого состоялся в марте. По их словам, зачастую у них не хватало времени, чтобы делать работу качественно.
Как пишет Insider, работникам открыто не говорили, что новые задачи касаются чатбота, но внутри компании речь о них зашла 7 февраля — в районе даты анонса Bard. Они должны были оценивать релевантность ответов, сгенерированных гипотетическим «ИИ-чатботом». Обычно эти люди занимаются оценкой поисковых алгоритмов техногиганта и рекламных объявлений, отображаемых в выдаче, а также отфильтровывают опасные сайты, чтобы они не оказались в выдаче.
С января фокус работы сильно сместился на проверку ИИ-промптов. Подрядчикам давали пользовательский запрос (вопрос, утверждение, инструкцию) и два потенциальных ответа, сгенерированных ИИ. Им нужно было выбрать лучший из двух ответов. В отдельном поле они могли указать, почему сделали такой выбор, чтобы бот улучшал свои ответы — чтобы они становились более связными, точными и основанными на актуальной информации.
Работники были недовольны, что им не дают достаточно времени, чтобы точно соотнести релевантность ответов к запросам. На каждую задачу отводится определённое количество времени — от 1 до нескольких минут. Они говорят, что им очень сложно оценивать ответы бота по темам, в которых они не разбираются, например в каких-то технических областях или о блокчейне. У тех, кто хотел бы ознакомиться с темой поглубже, чтобы выбрать ответ получше, попросту нет такой возможности. Поскольку время ограничено, а работа должна быть сделана, они просто оценивали ответы наугад.
Всего одна ошибка в презентации Bard стоила Alphabet $100 млрд капитализации. Google заявила, что в дальнейшем чатбот усовершенствуют.
Читать на dev.by