Пишем парсер, чтобы анализировать выборы. Как ИТ помогает изучать пропаганду и общество
Привет! Я Стас Горелик, политолог. Расскажу, как статистика и языки программирования помогают делать научные исследования проще и эффективнее.
Знаю, что социальные науки (те же политология или социология) часто ассоциируются с длинными текстами или монотонными опросами. Но методы, при помощи которых исследователи отвечают на свои вопросы, становятся все более продвинутыми. И всё чаще требуют знаний программирования и статистики.
Как эти знания помогают изучать пропаганду, получать инсайты об эмиграции и исследовать электральные предпочтения — разбираю ниже.
Кто пишет: Стас Горелик, PhD кандидат (политология) George Washington University, старший научный сотрудник Центра новых идей, преподаватель курса «Лаборатория исследований».
Пример № 1. Изучаем пропаганду с помощью парсеров и STM
Как можно исследовать современную пропаганду? Например, анализировать, какие сообщения разрешены, а какие запрещены. Что различные авторитарные режимы предпочитают публиковать, а что замалчивать, необходимо собрать данные из множества источников.
Ручной сбор информации занял бы огромное количество времени. Но программирование автоматизирует процесс. При помощи R или Python можно создать парсер, который соберет данные автоматически. Далее, с помощью уже более статистических методов, например, структурно-тематического моделирования (STM), можно проанализировать полученные данные и выявить основные темы и тренды.
Такой подход был применён в известной статье Гэри Кинга и его коллег. Они показали, что цензура в китайских социальных медиа направлена не столько на подавление негативной критики в адрес государства, сколько на предотвращение коллективных действий и социальной мобилизации. Для того, чтобы это показать, они не только проанализировали сообщения из 1400 различных социальных платформ (а это несколько миллионов сообщений!), но и использовали сложные статистические методы.
Пример № 2. Получаем инсайты об эмиграции с помощью статистического анализа
Другой пример — как доказать тезисы при помощи регрессионного анализа. При этом достаточно базового метода анализа статистических данных, который стал уже must have в арсенале современных политологов и социологов.
Исследователь Junghyun Lim использовал индивидуальные опросы и региональные данные по эмиграции и выборам в семи странах Центральной и Восточной Европы. Ему удалось доказать, что массовая эмиграция значимо влияет на политические предпочтения оставшихся граждан.
Эмигранты обычно моложе, более образованы и политически прогрессивны. И в тех местах, откуда они уезжают, остаются люди более консервативных взглядов. Поэтому крайне правые партии получают больше голосов.
Чтобы это доказать, Лим не просто показал описательные статистики. Он провел серию «продвинутых» регрессий с использованием инструментальных переменных (о методе можно прочитать здесь). Сделать это было бы крайне затруднительно без знания новейших методов статистического анализа.
Передовые подходы все больше проникают в социальную науку.
Пример № 3. Статистика помогает исследовать электоральные предпочтения
Социальные ученые разрабатывают новые методики, чтобы проводить опросные эксперименты, которые позволяют узнать, как люди бы поступили в той или иной ситуации.
Возьмём наш следующий пример. Учёные использовали метод опросных экспериментов (survey experiments). Их гипотеза была: достаточно ли в США поддержки демократии, чтобы предотвратить недемократическое поведение избранных политиков?
Суть метода: выборки рандомно делятся на подгруппы. Каждая из подгрупп, как и в лабораторном эксперименте, получает определенное воздействие — текстовое, визуальное или другое — прямо во время опроса (зачастую онлайн). Крупные компании проводят такие эксперименты, чтобы понять поведение своих потребителей и клиентов.
Исследование показало, что только небольшая часть американцев ставит демократические принципы на первое место при выборе кандидатов. Чем больше политическая поляризация, партийная преданность и экстремизма в политике, тем меньше они преданны демократии.
Как и в предыдущих примерах, чтобы это показать, необходимы знания статистики и программирования для работы с данными.
***
Статистика и программирование — важные инструменты для социальных исследователей. Они помогают проводить более глубокий и точный анализ сложных социальных явлений. Доказательно обосновывать теории и работать с большими данными, которые играют ключевую роль в современных эмпирических исследованиях.
Если хотите узнать, как применять язык программирования R для прикладного анализа данных, то приходите на бесплатный курс «Лаборатория исследований» от Центра новых идей.
Мнение автора может не совпадать с позицией редакции.
Что ещё почитать у комьюнити:
- Как самостоятельно изучить Python для веб-разработки;
- Как самостоятельно изучить анализ данных? Советы от Lead Data Scientist;
- Как самостоятельно научиться тестировать и найти работу.
Читать на dev.by