Нужна статистика и R. Рассказываю, как гуманитарий может залететь в Data Science и делюсь ссылками

Если вы в университете изучали политологию, философию или социологию — это не проблема, чтобы  начать работать в ИТ, особенно в Data Science. Поделюсь, какие источники и ресурсы лучше всего использовать. 

3 комментария

Кто пишет: Стас Горелик, PhD кандидат (политология) George Washington University, старший научный сотрудник Центра новых идей, преподаватель курса «Лаборатория исследований».


В этом посте я больше внимания уделю R, так как этот язык пока что более популярен в социальных науках. О первых шагах для изучения Python, читайте, например, тут.

Какие ресурсы использовать?

Если вы только-только решили обратить внимание на R и никогда раньше не занимались программированием, то стоит для начала понять, зачем вам нужны эти знания и как установить необходимые программы. Подробнее про язык можно прочитать здесь

R очень популярен не только потому что  это самый простой язык для обработки данных. Ещё почти все материалы для него бесплатные, начиная от программного обеспечения – R Studio, заканчивая всевозможными библиотеками и функциями. 

Есть куча книг и онлайн-курсов для R. Вот мои советы: 

Книги:

  • Изучение R можно начать с книги Hadley Wickham & Garrett Grolemund R for Data Science. Хэдли умеет очень доступно и интересно преподносить материал. А ещё он основал одну из наиболее популярных библиотек в R – tidyverse, которая является must have для работы с данными и их визуализации.
  • Для тех, кто уже освоил первые шаги и хочет идти дальше, то можно почитать Advanced R или Advanced R Solutions.
  • Для тех, кто привык работать с Excel, но хочет перейти на R, могу порекомендовать курс Алексея Селезнева. Он разработал специальный курс, адаптированный под навыки работы с Excel.
    В том числе, у него есть невероятное количество туториалов о том, как применять R в сфере маркетинга.

Платформы с курсами:

  • DataCamp — доступен по подписке, но первые главы бесплатны. Возможно, самый простой и доступный ресурс для изучения R. DataCamp предлагает огромное количество не только отдельных курсов, но и специализированных треков из курсов.

    Всё зависит, чему вы хотите научиться. На платформе можно выбирать курсы по уровню сложности. Ещё есть и другие языки программирования, можно изучить Tableau (сервис для визуализации данных).

    Кстати, лучшие участники курса «Лаборатория исследований» от Центра новых идей получат подписки DataCamp, чтобы далее прокачивать свои скиллы.
  • Stepic — бесплатный русскоязычный ресурс с курсами по различным языкам программирования и статистике. На этой платформе я очень рекомендую попробовать курсы по статистике от Института Биоинформатики. 
    Очень доступно подают информацию по статистике. Их преподает Толя Карпов, который после работы со Степиком организовал собственную платформу с курсами. Если вам зашло, то можно попробовать поучиться на их платформе, которая адаптирована с фокусировкой на выход на рынок ИТ после прохождения курсов.
  • LinkedIn (по подписке, первый месяц бесплатно) или Coursera (бесплатно / по подписке): хаб англоязычных онлайн курсов от университетов или профессоров. Предлагают большое разнообразие курсов для разных уровней. 

Если вы уже освоили первые шаги в программировании или статистике, то можно почитать различные блоги и туториалы или поучаствовать в еженедельных челленджах.

Например, в одном из самых популярных челленджах – TidyTuesday. Этот проект предоставляет еженедельные данные, на основе которых специалисты в Data Science делают обзоры по тому, как работать с данными. Например, вы можете посмотреть блог от Julia Silge. Она показывает, как можно использовать R, чтобы анализировать американскую политику или поп-культуру.

Что дальше? Как применять знания, чтобы найти работу? 

Наверное, самое доступное для гуманитариев — это Data Science. Можно остаться в стеке  Python/R. 

Вам пригодится статистика и знание некоторых языков/софтов для визуализации, например, Tableau или power BI, а также знание SQL. 

В самом простом варианте, Data Science — это работа с данными, их анализ и визуализация. Соответственно, сделайте упор на умение отображать данные, а также работу с описательными статистиками и стандартным статистическим анализом для предоставления результатов.

Кстати, Центр Новых идей запускает бесплатный курс по R для  для прикладного анализа данных.

Мнение автора может не совпадать с позицией редакции. 

Что ещё почитать у комьюнити:


Читать на dev.by