Блог

Разработка SoftTeco и МГЛУ: система построения лингвистического корпуса текстов

Уже несколько лет SoftTeco сотрудничает с университетами на постоянной основе — компания является базовой организацией многих университетов Республики Беларусь. В этом году специалисты компании SoftTeco и сотрудники Минского государственного лингвистического университета реализовали совместный проект — была разработана система статистического анализа переводов текстов. 

Говорят, самые яркие идеи рождаются на стыке наук. В нашем случае это IT-технологии, корпусная лингвистика и статистика. Развитие современных интеллектуальных систем, предназначенных для обработки текстов, требует большой экспериментальной лингвистической базы. Этим занимается корпусная лингвистика — направление компьютерной лингвистики, сформировавшееся как отдельный раздел науки о языке в начале 90-х гг прошлого века. Работы в области корпусной лингвистики направлены на определение общих принципов построения и использования лингвистических корпусов с применением компьютерных технологий. 

Генератором идеи выступила Наталья Альбертовна Богданова, кандидат филологических наук, доцент кафедры фонетики и грамматики немецкого языка МГЛУ. Обработку текста и последующий анализ сделала Виталина Мельник, студентка магистратуры МГЛУ. 

Магистерская диссертация Виталины основана на переводе художественного текста со шведского на белорусский язык с маркировкой языковых особенностей и их дальнейшим подсчетом для создания статистики. Такая статистика помогает анализировать языки, выявлять их признаки и отличительные черты. 

Мы поговорили с Натальей Альбертовной Богдановой о том, как созданное приложение упрощает процесс построения и изучения многомерной модели литературного персонажа.

«Наше исследование выполнено в русле корпусной лингвистики — одного из наиболее популярных направлений лингвистических исследований последних десятилетий. Идея обращения именно к параллельным художественным текстам интересна с двух точек зрения. Во-первых, процесс перевода литературного произведения — это всегда сотворчество, в ходе которого сознательно или бессознательно могут рождаться новые смыслы. Во-вторых, линейное прочтение текста не всегда открывает исследователю художественные детали, лингвистические особенности текста. Эти особенности зачастую становятся заметны только в процессе моделирования, когда происходит фокусировка на конкретных особенностях произведения (персонажах, сюжетной линии и др.).

В нашем проекте моделированию подвергается художественный образ литературного персонажа, для описания которого была создана система семантических тегов, маркирующих различные детали (внешность, поведение, менталитет и др.), а также аспекты описания персонажа (авторская речь, речь персонажа или других героев и др.). Созданный корпусный менеджер помогает, таким образом, упростить работу исследователя по созданию и изучению многомерной модели литературного персонажа. Данный проект интересен как с точки зрения интерпретации художественного текста, так и с точки зрения изучения переводческих приемов, применяемых для создания художественного образа в переводном тексте.

Созданный программный продукт был апробирован на небольшом фрагменте параллельного шведско-белорусского корпуса текстов трилогии А. Линдгрен о Малыше и Карлсоне. В дальнейшем мы планируем проводить схожие исследования на корпусах других языков.»

Разработкой приложения занималась белорусская команда SoftTeco:

  • Анастасия Акимова — Backend Developer из Витебска
  • Николай Аникин — Frontend Developer из Гомеля
  • Анастасия Харламова — Tech Lead из Минска

С технической точки зрения, приложение получает заранее подготовленный текст на двух языках. Текст размечается определенным образом — метками наподобие HTML — в тех местах, которые соответствуют той или иной характеристике. Готовый текст в формате MS Word без преобразования загружается в онлайн-приложение. Далее можно смотреть и анализировать статистику. Например, была исследована частота появления характеристик персонажей: «внешний вид», «национальность», «гендерная принадлежность» и др. Это позволяет понять, какими выразительными средствами пользуется автор оригинального произведения на одном языке, и как эти выразительные средства трансформируются при переводе на другой язык.

«Мы рады, что приняли участие в таком интересном исследовательском проекте и помогли нашим партнерам из МГЛУ воплотить в жизнь создание корпусного менеджера. Со стороны SoftTeco над проектом работали специалисты, для которых не было технических сложностей в реализации. Кроме того, нам также было интересно увидеть разницу в лингвистическом представлении героев Астрид Линдгрен шведами и белорусами. 

Мы планируем продолжить работу над проектом — предстоит усовершенствовать созданный лингвистический инструмент построения и исследования моделей литературных персонажей», — отмечает Виктор Петров, руководитель проекта.

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.