Разработка SoftTeco и МГЛУ: система построения лингвистического корпуса текстов
Уже несколько лет SoftTeco сотрудничает с университетами на постоянной основе — компания является базовой организацией многих университетов Республики Беларусь. В этом году специалисты компании SoftTeco и сотрудники Минского государственного лингвистического университета реализовали совместный проект — была разработана система статистического анализа переводов текстов.
Говорят, самые яркие идеи рождаются на стыке наук. В нашем случае это IT-технологии, корпусная лингвистика и статистика. Развитие современных интеллектуальных систем, предназначенных для обработки текстов, требует большой экспериментальной лингвистической базы. Этим занимается корпусная лингвистика — направление компьютерной лингвистики, сформировавшееся как отдельный раздел науки о языке в начале 90-х гг прошлого века. Работы в области корпусной лингвистики направлены на определение общих принципов построения и использования лингвистических корпусов с применением компьютерных технологий.
Генератором идеи выступила Наталья Альбертовна Богданова, кандидат филологических наук, доцент кафедры фонетики и грамматики немецкого языка МГЛУ. Обработку текста и последующий анализ сделала Виталина Мельник, студентка магистратуры МГЛУ.
Магистерская диссертация Виталины основана на переводе художественного текста со шведского на белорусский язык с маркировкой языковых особенностей и их дальнейшим подсчетом для создания статистики. Такая статистика помогает анализировать языки, выявлять их признаки и отличительные черты.
Мы поговорили с Натальей Альбертовной Богдановой о том, как созданное приложение упрощает процесс построения и изучения многомерной модели литературного персонажа.
«Наше исследование выполнено в русле корпусной лингвистики — одного из наиболее популярных направлений лингвистических исследований последних десятилетий. Идея обращения именно к параллельным художественным текстам интересна с двух точек зрения. Во-первых, процесс перевода литературного произведения — это всегда сотворчество, в ходе которого сознательно или бессознательно могут рождаться новые смыслы. Во-вторых, линейное прочтение текста не всегда открывает исследователю художественные детали, лингвистические особенности текста. Эти особенности зачастую становятся заметны только в процессе моделирования, когда происходит фокусировка на конкретных особенностях произведения (персонажах, сюжетной линии и др.).
В нашем проекте моделированию подвергается художественный образ литературного персонажа, для описания которого была создана система семантических тегов, маркирующих различные детали (внешность, поведение, менталитет и др.), а также аспекты описания персонажа (авторская речь, речь персонажа или других героев и др.). Созданный корпусный менеджер помогает, таким образом, упростить работу исследователя по созданию и изучению многомерной модели литературного персонажа. Данный проект интересен как с точки зрения интерпретации художественного текста, так и с точки зрения изучения переводческих приемов, применяемых для создания художественного образа в переводном тексте.
Созданный программный продукт был апробирован на небольшом фрагменте параллельного шведско-белорусского корпуса текстов трилогии А. Линдгрен о Малыше и Карлсоне. В дальнейшем мы планируем проводить схожие исследования на корпусах других языков.»
Разработкой приложения занималась белорусская команда SoftTeco:
- Анастасия Акимова — Backend Developer из Витебска
- Николай Аникин — Frontend Developer из Гомеля
- Анастасия Харламова — Tech Lead из Минска
С технической точки зрения, приложение получает заранее подготовленный текст на двух языках. Текст размечается определенным образом — метками наподобие HTML — в тех местах, которые соответствуют той или иной характеристике. Готовый текст в формате MS Word без преобразования загружается в онлайн-приложение. Далее можно смотреть и анализировать статистику. Например, была исследована частота появления характеристик персонажей: «внешний вид», «национальность», «гендерная принадлежность» и др. Это позволяет понять, какими выразительными средствами пользуется автор оригинального произведения на одном языке, и как эти выразительные средства трансформируются при переводе на другой язык.
«Мы рады, что приняли участие в таком интересном исследовательском проекте и помогли нашим партнерам из МГЛУ воплотить в жизнь создание корпусного менеджера. Со стороны SoftTeco над проектом работали специалисты, для которых не было технических сложностей в реализации. Кроме того, нам также было интересно увидеть разницу в лингвистическом представлении героев Астрид Линдгрен шведами и белорусами.
Мы планируем продолжить работу над проектом — предстоит усовершенствовать созданный лингвистический инструмент построения и исследования моделей литературных персонажей», — отмечает Виктор Петров, руководитель проекта.
Читать на dev.by