Марина Чернышевич, ведущий лингвист-разработчик в научно-исследовательской команде минского отделения компании IHS, приняла участие в международном семинаре SemEval-2014. Разработанная ею система заняла первое место в конкурсе по автоматическому извлечению различных аспектов продукта из потребительских отзывов.
SemEval – это ежегодный международный семинар, посвящённый оценке систем семантического анализа. Цель этих семинаров заключается в стимулировании разработки инновационных идей, их практического применения в системах по обработке естественного языка, а также выработке оптимальных методов решения конкретных задач в компьютерной лингвистике. В этом году SemEval проходил совместно с 25-й Международной конференцией по компьютерной лингвистике COLING-2014 в Дублине (Ирландия). Конференция собрала более семисот участников, которые представляли научные учреждения и коммерческие организации со всего мира, включая университеты Стэнфорда и Беркли, компании Google, Microsoft, IBM, Xerox и другие.
Одним из популярных направлений SemEval в последние годы выступает анализ тональности текста на основе аспектов (aspect based sentiment analysis) — автоматическое выявление эмоциональной оценки автора высказывания по отношению к различным аспектам (функциям, атрибутам, компонентам) исследуемого объекта. Таким образом, одна из проблем в этой задаче заключается в автоматическом извлечении свойств исследуемого объекта, таких как, например, экран ноутбука или ёмкость аккумулятора. Именно эта задача была успешно решена с помощью системы, разработанной Мариной Чернышевич.
Предложеный прототип — это многоуровневая система на базе лингвистического процессора, созданного командой IHS R&D Belarus для IHS Goldfire. Данный лингвистический процессор решает ряд морфологических, лексических, синтаксических и семантических задач по анализу и синтезу текста на естественном языке. Для извлечения аспектов продукта из потребительских отзывов были использованы современные методы машинного обучения наряду с новыми и нестандартными подходами для решения подобных задач. Разработанная система показала наилучший результат в домене “ноутбуки” среди 26 решений, предложенных известными исследовательскими институтами и организациями. Организаторы конкурса отметили новизну предложенного подхода и многообещающую универсальность решения по отношению к различным предметным областям. Прототип способен без переобучения выделять аспекты из текстов на произвольные темы от ноутбуков до ресторанов.
Это был первый опыт участия в конкурсах такого уровня, и эта уверенная победа продемонстрировала огромный потенциал команды компьютерных лингвистов IHS R&D Belarus.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.