Як самастойна вывучыць аналіз дадзеных? Парады ад Lead Data Scientist

Дата-аналітыкі — адныя з найбольш запатрабаваных ІТ-спецыялістаў цяпер. Як увайсці ў прафесію? Распавяду пра свой досвед, падзялюся карыснымі рэсурсамі для самастойнага вывучэння і як паспяхова прайсці інтэрв’ю на першую працу.

Хто піша: Аляксандр Казлоў, Lead Data Scientist у Flo Health, аўтар Telegram-каналу пра дадзеныя.

Хочаце падзяліцца хітрыкамі вашай прафесіі? Пішыце на [email protected] або ў тэлегу @blogs_devby.

Чым займаюцца дата-аналітыкі

Значэнне мяняецца ад кампаніі да кампаніі. На адным полюсе — аналітык з веданнем Python ці R, знаёмы з ML і добрай англійскай. На іншым — спецыяліст па Excel і BI-інструментах. Распавядаць я буду пра першы: ён мне больш цікавы і адчыняе лепшыя кар’ерныя перспектывы.

Дата-аналітык знаходзіць залежнасці ў даных і паляпшае інтуіцыю арганізацыі наконт іх. Адсюль розныя камбінацыі штодзённых задач. Часцей за ўсё вам прыйдзецца шукаць і чысціць дадзеныя, фармаваць з іх візуалізацыі, дашборды і рэпорты, прэзентаваць бізнэсу знойдзеныя ў даных патэрны, а таксама дызайніць A/B тэсты і будаваць прадказальныя мадэлі.

Камбінацыя навыкаў залежыць ад таго, кім вы хочаце быць.

Добрым камунікатарам, які лепш астатніх валодае англійскай, робіць запамінальныя візуалізацыі і разумее, як пераканаць бізнес.
Тэхнічным спецыялістам, які цягне на сабе інфраструктуру кампаніі і паляпшае інжынерную культуру калег-аналітыкаў.
Знаўцам causal inference, які тэрарызуе людзей на кухнях баесаўскай статыстыкай, сачыць за моднымі трэндамі.

У якога спецыяліста сябе збіраць — справа вашая. Рэкамендую арыентавацца на свае моцныя бакі і інтарэсы.

Калі вы скончылі БДУІР, вашыя тэхнічныя навыкі верагодна лепш, чым у выпускнікоў сацыялогіі БДУ. Калі вы скончылі аспірантуру, то хіба умееце чытаць навуковую літаратуру і добра ведаеце англійскую. Гэта таксама лёгка запакаваць у адносную перавагу — сачыць за акадэмічнымі публікацыямі і прыўносіць новыя веды ў арганізацыю.

Мовы праграмавання і SQL — гэта база. Неабходна валодаць імі на ўзроўні, які дазваляе працаваць з прынятым тэмпам і не рабіць крытычных памылак. Але хутка надыходзіць момант, пасля якога веданне гэтых навыкаў перастае значна ўплываць на прадуктыўнасць. Урэшце, вы не праграміст і не дата-інжынер. Статыстычныя навыкі або разуменне бізнэсу прыйдзецца развіваць доўга, заўсёды.

Можна быць выключна Excel-аналітыкам. Але такіх офераў менш, і плоцяць за іх таксама няшмат.

Як самастойна стаць дата-аналітыкам. Шмат карысных рэсурсаў

Правільна складаць план навучання так, каб вам было камфортна. Вам напэўна захочацца выбраць «лепшыя» курсы, доўга займацца іх параўнаннем. Праўда ў тым, што курсы не граюць значную ролю. Важна, каб курс вам падабаўся: структурай, працягласцю, стылістыкай. Гэта павышае імавернасць, што вы прысвяціце яму патрэбную колькасць увагі і часу. А менавіта гэта важна на дыстанцыі.

Я асабіста ніколі не праходзіў аніякія курсы. У магістратуры вывучаў R і статыстыку. Рэшце вучыўся ўжо на працы.

Калі вам не хочацца праходзіць курс па SQL і Python, а хочацца чытаць дакументацыю і вырашаць задачкі на Leetcode — цудоўна. Калі наадварот — таксама цудоўна, курсы на Datacamp, Coursera, Kaggle і г. д. да вашай увагі.

Я не лічу, што паслядоўнасць важная. Варта аб’яднаць вывучэнне статыстыкі, візуалізацыі даных і моваў праграмавання. Сімуляцыі дадзеных — гэта лепшы спосаб развіць статыстычную інтуіцыю. А для яе патрэбныя ўсе тры навыкі, якія я пералічыў вышэй.

Для вывучэння статыстыкі я рэкамендую наступныя матэрыялы:

Statlect як рэсурс з бясплатнымі і якаснымі матэрыяламі пра статыстыку, тэорыю імавернасцяў, машыннае навучанне і іншае. Каб засвоіць базавыя статыстычныя канцэпты гэтай старонкі цалкам дастаткова
Кніга Боба Карпернера Probability and Statistics: a simulation-based approach. Яна пабудаваная на сімуляцыях, што карысна. У вольным доступе, але каб яе атрымаць неабходныя мінімальныя навыкі праграмавання.
Главы 1.5 — 1.7 з кнігі Bayesian Data Analysis. У іх абмяркоўваецца розніца паміж «аб’ектыўнымі» і «суб’ектыўнымі» імаверансцямі, гэта пашырыць вашую інтуіцыю наконт таго, навошта мы ўвогуле карыстаемся статыстыкай
Statistical models and shoe leather. Класічная праца Дэвіда Фрыдмана, аднаго з лепшых статыстыкаў 20 стагоддзя, у якой абмяркоўваюцца пытанні прычынна-следчай сувязі і апісання сацыяльных феноменаў з дапамогай статыстычных мадэляў
Mindless statistics. Пра праблему пераўтварэння статыстыкі ў набор тэатральных рытуалаў, якія бяздумна паўтараюцца.
Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. У статыстычным аналізе робяць памылкі. Часта. Амерыканская Статыстычная Асацыяцыя рэкамендуе гэты артыкул з апісаннем 25 распаўсюджаных памылак у інтэрпрэтацыі базавых статыстычных канцэптаў.
Abandon Statistical Significance. Прапанова радыкальнай рэформы па адмове ад статыстычнай значнасці. З ідэяй не абавязкова пагаджацца, артыкул усё роўна будзе карысны — дае магчымасць паглядзець на статыстычныя практыкі, як на набор канвенцый і гістарычных выпадковасцяў, да якіх можна ставіцца крытычна.

Асобна рэкамендую чытаць блогі. Там шмат карыснага матэрылу і ў такім фармаце часта адбываюцца дыскусіі або спрэчкі тытанаў індустрыі. Блогі дапамагаюць зразумець, што зараз важна, модна і прасунута. Паглядзіце, якім чынам абгрунтоўваецца пункт гледжання. Нават з улікам таго, што спачатку вы будзеце разумець толькі дробную частку.

Напрыклад тут у каментарах можна пабачыць, як Даніэль Канеман, нобелеўскі лаўрэат вядомы сваёй кніжкай Thinking Fast and Slow, прызнае памылкі ў сваім аналізе. А тут можна назіраць, як прафесар Калубмійскага ўніверсітэту і Фіілдсаўскі лаўрэат некалькі дзён спрачаюцца, з імпэтам і агрэсіяй школьнікаў, ці можна мовай тэорыі імавернасцяў апісваць прычынна-следчыя сувязі.

Рэкамендую наступныя:

Statistical Modeling, Causal Inference, and Social Science. Блог найбольш вядомага прыхільніка баесаўскай статыстыкі. Часта абмяркоўваюцца памылкі ў статыстычным аналізе, філасофія навукі, візуалізацыі даных, у каментарах шмат топавых спецыялістаў
The Unofficial Google Data Science Blog. Назва кажа сама за сябе. Выключная якасць матэрыялу
The 20% Statistician. Блог з фокусам на тым, каб навучыць людзей лепшым статыстычным практыкам. У аўтара ёсць свой курс на Coursera з адпаведнай назвай
Simply Statistics. Блог, які вядуць прафесары біястатыстыкі з Гарварду і ўніверсітэту Джона Хопкінса. Ён не толькі пра статыстыку. Вось напрыклад артыкул пра важнасць наратываў у аналізе даных.
Stats and R. Блог з фокусам на R, але вялікай колькасцю матэрыялаў наконт статыстычных праблем, з якімі аналітыкі сустракаюцца ў штодзённай працы

Таксама, ёсць ютуб-каналы з якаснымі матэрыяламі: 3Blue1Brown, StatQuest і іншыя.

У якасці мовы праграмавання выбірайце Python. Нягледзячы на тое, што мая першая мова — R, якую я люблю і якой дагэтуль карыстаюся для асабістых патрэбаў, рынак склаўся так, што Python непараўнальна больш распаўсюджаны.

Вывучэнне Python можна аб’яднаць з вывучэннем іншых элементаў дата-аналітыкі. Сюды падыходзяць такія курсы як

Master Scientific Computing in Python with NumPy (Udemy),
Machine Learning A-Z (Udemy),
ці Scientific Computing with Python (FreeCodeCamp),

ці любы іншы з папулярных курсаў.

Асобна адзначу англійскую мову. У вас атрымаецца зрабіцца аналітыкам і без яе, але не настолькі добрым, як атрымалася б з ёй. Лепшыя матэрыялы, практыкі і спецыялісты існуюць у англамоўнай сферы. І да іх проста дабрацца. Зразумела, што нерацыянальна вучыць некалькі год мову, каб адаслаць сваё першае CV. Рацыянальна было пачынаць вучыць англійскую яшчэ «учора».

Як паспяхова прайсці першае сумоўе

Пры распрацоўцы навучальнага плану арыентуйцеся на структуру тыповага сумоўя. Вас будуць даймаць:

статыстыкай,
SQL,
бізнэс-інтуіцыяй,
мовамі праграмавання,
візуалізацыяй дадзеных,
машынным навучаннем,
A/B тэстамі,
BI інструментамі
англійскай.

Ад гэтага і варта адштурхоўвацца.

На YouTube шмат mock-інтэрв’ю, у інтэрнэце хапае прыкладаў стандартных пытанняў. Рэкамендую іх павырашаць, і як толькі працэнт памылак будзе не зусім драматычны, пачаць дасылаць CV.

пытанні на MLstack,
вось гэтае SQL mock інтэрв’ю на ютубе.

Калі вы гатовыя да інтэрв’ю:

камфортна адчуваеце сябе з easy/medium задачамі па SQL і Python на Leetcode ці аналагічных сервісах, вы гатовыя да інтэрв’ю;
можаце напісаць цыкл у R ці Python, у якім сімулююцца вынікі A/B тэстаў з 10% апліфта ў канверсіях, вы гатовыя да інтэрв’ю;
можаце даць вызначэнне p-value, падлічыць ад рукі стандартную дэвіяцыю, ці патлумачыць, што такое multiple comparisons problem — вы гатовыя да інтэрв’ю;
ведаеце, што такое overfitting, можаце патлумачыць bias-variance tradeoff, патлумачыць агульную розніцу паміж Random Forest і Gradient Boosting — вы гатовыя да інтэрв’ю.

На DataCamp ёсць цікавы курс пра падрыхтоўку да статыстычных пытанняў з дапамогай Python. Таксама, у мяне ёсць артыкул з пытаннямі для развіцця статыстычнай інтуіцыі ў кантэксце A/B тэстаў. Пытанні не самыя простыя, але паспрабаваць сябе можна.

Рэкамендую прысвяціць час задачкам па тэорыі імавернасцяў — іх часта загадваюць. У інтэрнэце хапае бясплатных матэрыялаў, напрыклад альбо напрыклад.

Азнаёмцеся з базавай тэрміналогіяй: канверсія, апліфт, churn і retention, LTV, A/A test і г. д. Дазволіць не губляцца і лепш разумець, чаго ад вас хочуць на інтэрв’ю.

Як правільна шукаць працу джуну дата-аналітыку? Практычныя парады

Акуратна аформіце CV. У нашай працы важна ўвага да дэталяў, сабранасць, фокус. Пры пошуку першай працы не так шмат прасторы, каб прадэманстраваць гэтыя якасці. Таму не варта грэбаваць афармленнем.
Перад інтэрв’ю яшчэ раз для сябе прагаварыце, што вас цікавіць і ў чым вашыя адносныя перавагі. Усё ведаць нельга, а гэты «вобраз» ці «профіль» дапаможа вам лепш пазіцыянаваць сябе падчас інтэрв’ю, не губляцца, калі ў нейкіх сферах у вас ёсць прабелы.
Абярыце некалькі «каронных» тэм. Што гэта будзе, не так важна: паглыбленае разуменне баз даных, спецыфіка падліку p-value ці змест навуковага артыкулу пра псіхалогію візуалізацыі даных. У вас мусяць быць тэмы, якімі вы валодаеце лепш сярэдняга кандыдата і пра якія вам камфортна размаўляць. Не бойцеся ўводзіць размову ў бок гэтых тэм. Можаце наўпрост казаць: вас цікавіць канкрэтная тэма і вы б хацелі распавесці пра яе падрабязней.

Найм — гульня з няпоўнай інфармацыяй, і здольнасць падсвяціць свае моцныя бакі дапаможа і вам, і тым, хто будзе браць вас на працу.

Меркаванне аўтара можа не адлюстроўваць пазіцыю рэдакцыі.

dev.by, як і іншым сумленным медыям, сёння вельмі складана: рэдакцыя працуе за межамі краіны, а нашы рэкламныя даходы скараціліся ў некалькі разоў. Але мы даем рады — з вашай дапамогай.

Гэта вы дзеліцеся з намі інфанагодамі, меркаваннямі, досведам, часам і ўвагай. А 230 чытачоў падтрымліваюць нас данатамі. У 2023 годзе мы хочам сабраць 1000 чытачоў-падпісантаў.

Праз Patreon.

З Беларуси — праз Donorbox.

Ці крыптой, тут гаманцы.

Дзякуй, што прачыталі гэтае паведамленне.

Што яшчэ прачытаць пра #увайсціўайці ў камьюніці:

Як самастойна навучыцца тэставаць і знайсці працу;
Усё пра тэст ISTQB для тэсціроўшчыкаў. На асабістым досведзе;
Як самастойна вывучыць Python для вэб-распрацоўкі. Лавіце план навучання;