Блог

Как самостоятельно изучить анализ данных? Советы от Lead Data Scientist

Дата-аналитики — одни из наиболее востребованных ИТ-специалистов сейчас. Как войти в профессию? Расскажу о своем опыте, поделюсь полезными ресурсами для самостоятельного изучения и как успешно пройти интервью на первую работу.  

Вы можаце прачытаць гэты тэкс па-беларуску


Кто пишет: Александр Козлов, Lead Data Scientist во Flo Health, автор Telegram-канала о данных.

Хотите поделиться секретами вашей профессии? Пишите на [email protected] или в телегу @blogs_devby. 


Чем занимаются дата-аналитики

Определение меняется от компании к компании. На одном полюсе — аналитик со знанием Python или R, знакомый с ML и хорошим английским. На другом — специалист по Excel и BI-инструментам. Рассказывать я буду о первом: это мне интереснее и открывает лучшие карьерные перспективы.

Дата-аналитик находит зависимости в данных и улучшает интуицию их организации. Отсюда разные комбинации ежедневных задач. Чаще всего вам придётся искать и чистить данные, формировать из них визуализации, дашборды и репорты, презентовать бизнесу найденные в данных паттерны, а также дизайнить A/B тесты и строить предсказуемые модели. 

Комбинация навыков зависит от того, кем вы хотите быть:

  • хорошим коммуникатором, который лучше остальных владеет английским, делает запоминающиеся визуализации и понимает, как убедить бизнес;
  • техническим специалистом, который тянет на себе инфраструктуру компании и улучшает инженерную культуру коллег-аналитиков;
  • знатоком causal inference, который терроризирует людей на кухнях баесовской статистикой и следит за модными трендами.

В какого специалиста себя собирать — дело ваше. Рекомендую ориентироваться на свои сильные стороны и интересы.

Если вы закончили БГУИР, ваши технические навыки вероятно лучше, чем у выпускников социологии БГУ.  Если закончили аспирантуру, то, наверное, умеете читать научную литературу и хорошо знаете английский. Это также легко запаковать в относительное преимущество — следить за академическими публикациями и привносить новые знания в организацию.

Языки программирования и SQL — это база. Необходимо владеть ими на уровне, который позволяет работать с принятым темпом и не делать критических ошибок. Но скоро наступает момент, после которого знание этих навыков перестаёт значительно влиять на продуктивность. В конце концов, вы не программист и не дата-инженер. Статистические навыки или понимание бизнеса придётся развивать долго, всегда.

Можно быть исключительно Excel-аналитиком. Но таких офферов меньше, и платят за них тоже немного.

Как самостоятельно стать дата-аналитиком. Много полезных ресурсов

Правильно составлять план обучения так, чтобы вам было комфортно. Вам наверняка захочется выбрать «лучшие» курсы, долго заниматься их сравнением.


Правда в том, что курсы не играют значительной роли. Важно, чтобы курс вам нравился: структурой, длительностью, стилистикой. Это повышает вероятность, что вы посвятите ему нужное количество времени. А именно это важно на дистанции.


Я лично никогда не проходил никаких курсов. В магистратуре изучал R и статистику. Остальному учился уже на работе.

Если вам не хочется проходить курс по SQL и Python, а хочется читать документацию и решать задачки на Leetcode — превосходно. Если наоборот — тоже превосходно, курсы на Datacamp, Coursera, Kaggle и т. д. к вашим услугам.

Я не считаю, что последовательность важна. Следует объединить изучение статистики, визуализации данных и языков программирования. Симуляции данных — это лучший способ развить статистическую интуицию. А для неё нужны все три навыка, которые я перечислил выше. 

Для изучения статистики я рекомендую следующие материалы:

  1. Statlect как ресурс с бесплатными и качественными материалами про статистику, теорию вероятностей, машинное обучение и прочее. Чтобы усвоить базовые статистические концепты, этой страницы вполне достаточно
  2. Книга Боба Карпернера Probability and Statistics: a simulation-based approach. Она построена на симуляциях, что полезно. В свободном доступе, но чтобы её получить, необходимы минимальные навыки программирования.
  3. Главы 1.5 — 1.7 из книги Bayesian Data Analysis. В них обсуждается разница между «объективными» и «субъективными» вероятностями, это расширит вашу интуицию по поводу того, зачем мы вообще пользуемся статистикой.
  4. Statistical models and shoe leather. Классическая работа Дэвида Фридмана, одного из лучших статистиков 20 века, в которой обсуждаются вопросы причинно-следственной связи и описания социальных феноменов с помощью статистических моделей.
  5. Mindless statistics. О проблеме преобразования статистики в набор театральных ритуалов, которые бездумно повторяются.
  6. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. В статистическом анализе делают ошибки. Часто. Американская статистическая ассоциация рекомендует эту статью с описанием 25 распространенных ошибок в интерпретации базовых статистических концептов.
  7. Abandon Statistical Significance. Предложение радикальной реформы по отказу от статистической значимости. С идеей не обязательно соглашаться, статья всё равно будет полезна — даёт возможность посмотреть на статистические практики как на набор конвенций и исторических случайностей, к которым можно относиться критически.

Отдельно рекомендую читать блоги. Там много полезного материла и в таком формате часто происходят дискуссии или споры титанов индустрии. Блоги помогают понять, что сейчас важно, модно и продвинуто. Посмотрите, каким образом обосновывается точка зрения. Даже с учётом того, что сначала вы будете понимать только мелкую часть.

Например, здесь в комментариях можно увидеть, как Даниэль Канеман, нобелевский лауреат, известный своей книжкой Thinking Fast and Slow, признаёт ошибки в своём анализе. А здесь можно наблюдать, как профессор Колумбийского университета и Фиилдсовский лауреат несколько дней спорят, с энтузиазмом и агрессией школьников, можно ли языком теории вероятностей описывать причинно-следственные связи.

Рекомендую следующие:

  1. Statistical Modeling, Causal Inference, and Social Science. Блог наиболее известного сторонника баесовской статистики. Часто обсуждаются ошибки в статистическом анализе, философия науки, визуализации данных, в комментариях много топовых специалистов.
  2. The Unofficial Google Data Science Blog. Название говорит само за себя. Исключительное качество материала.
  3. The 20% Statistician. Блог с фокусом на то, чтобы научить людей лучшим статистическим практикам. У автора есть свой курс на Coursera с соответствующим названием.
  4. Simply Statistics. Блог, который ведут профессора биостатистики из Гарварда и Университета Джона Хопкинса. Он не только о статистике. Вот, например, статья о важности нарративов в анализе данных.
  5. Stats and R. Блог с фокусом на R, но большим количеством материалов по поводу статистических проблем, с которыми аналитики встречаются в ежедневной работе

Также есть ютуб-каналы с качественными материалами: 3Blue1Brown, StatQuest и другие.

В качестве языка программирования выбирайте Python. Хотя мой первый язык — R, который я люблю и который до сих пор использую для личных нужд, рынок развивался так, что Python несравненно более распространен.

Изучение Python можно объединить с изучением других элементов дата-аналитики. Сюда подходят такие курсы как

или любой другой из популярных курсов.

Отдельно отмечу английский язык. У вас получится сделаться аналитиком и без него, но не настолько хорошим, как получилось бы с ним. Лучшие материалы, практики и специалисты существуют в англоязычной сфере. И до них просто добраться. Понятно, что нерационально учить несколько лет язык, чтобы отослать своё первое CV. Рационально было начинать учить английский еще «вчера».

Как успешно пройти первое собеседование

При разработке учебного плана ориентируйтесь на структуру типичного собеседования. Вас будут изводить: 

  • статистикой,
  • SQL,
  • бизнес-интуицией,
  • языками программирования,
  • визуализацией данных,
  • машинным обучением,
  • A/B тестами,
  • BI инструментами
  • английским.

От этого и стоит отталкиваться.

На YouTube много mock-интервью, в интернете хватает примеров стандартных вопросов. Рекомендую их порешать и, как только процент ошибок будет не совсем драматичен, начать высылать CV.

  • вопросы на MLstack
  • SQL-mock интервью на ютубе. 

Когда вы готовы к интервью:

  • комфортно чувствуете себя с easy/medium задачами по SQL и Python на Leetcode или аналогичных сервисах, вы готовы к интервью;
  • можете написать цикл в R или Python, в котором симулируются результаты A/B тестов с 10% аплифта в конверсиях, вы готовы к интервью;
  • можете дать определение p-value, подсчитать от руки стандартную девиацию, или пояснить, что такое multiple comparisons problem — вы готовы к интервью;
  • знаете, что такое overfitting, можете пояснить bias-variance tradeoff, пояснить общую разницу между Random Forest и Gradient Boosting — вы готовы к интервью.

На DataCamp есть интересный курс о подготовке к статистическим вопросам с помощью Python. Также у меня есть статья с вопросами для развития статистической интуиции в контексте A/B тестов. Вопросы не самые простые, но попробовать себя можно.

Рекомендую посвятить время задачкам по теории вероятностей — их часто загадают. В интернете хватает бесплатных материалов, например либо например.

Ознакомьтесь с базовой терминологией: конверсия, аплифт, churn и retention, LTV, A/A test и т. д. Позволит не теряться и лучше понимать, чего от вас хотят на интервью. 

Как правильно искать работу джуну дата-аналитику? Практические советы 

  • Аккуратно оформите CV. В нашей работе важно внимание к деталям, собранность, фокус. При поиске первой работы не так много пространства, чтобы продемонстрировать эти качества. Поэтому не стоит пренебрегать оформлением.
  • Перед интервью ещё раз для себя проговорите, что вас интересует и в чем ваши относительные предпочтения. Всё знать нельзя, а этот «образ» или «профиль» поможет вам лучше позиционировать себя во время интервью, не теряться, если в каких-то сферах у вас есть пробелы.
  • Выберите несколько «коронных» тем. Что это будет, не так важно: углубленное понимание баз данных, специфика подсчета p-value или содержание научной статьи о психологии визуализации данных. У вас должны быть темы, которыми вы владеете лучше среднего кандидата и о которых вам комфортно разговаривать. Не бойтесь вводить разговор в сторону этих тем. Можете напрямую говорить: вас интересует конкретная тема и вы бы хотели рассказать о ней подробнее.

Найм — игра с неполной информацией, и способность подсветить свои сильные стороны поможет и вам, и тем, кто будет брать вас на работу.

Мнение автора может не отражать позицию редакции. 


dev.by, как и другим честным медиа, сегодня очень сложно: редакция работает за пределами страны, а наши рекламные доходы сократились в несколько раз. Но мы справляемся — с вашей помощью. Это вы делитесь с нами инфоповодами, мнениями, опытом, временем, вниманием и донатами.

Через Patreon

Из Беларуси — через Donorbox.

И ещё криптой, тут кошельки.

Спасибо, что прочитали это сообщение.

Что ещё прочитать о #войтивайти комьюнити: 

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.