Support us

«Технические вопросы не задавали». Единственный Grandmaster-белорус на Kaggle — о проекте, который предпочёл Фэйсбуку

Оставить комментарий
«Технические вопросы не задавали». Единственный Grandmaster-белорус на Kaggle — о проекте, который предпочёл Фэйсбуку

Белорусский Data Scientist Евгений Бабахин, который в прошлом году под ником b.e.s. выиграл $50 тысяч на Kaggle, недавно завоевал свою пятую золотую медаль.  После получения наивысшего статуса — Grandmaster — ему предложили сделать обучающий онлайн-курс на платформе Datacamp для тех, кто хочет участвовать в соревнованиях. 

Полгода назад Евгений присоединился к команде разработчиков автоматического машинного обучения (autoML) американского стартапа H2O.ai, который недавно привлёк $72.5 млн в раунде D. Интересно, что из 150 Kaggle Grandmaster’ов в H2O.ai работает 16. dev.by поговорил с белорусом про статус грандмастера и новую работу в чешском офисе Ml-стартапа. 

Женя, расскажи про твои успехи на Kaggle с тех пор, как ты вместе с «парнем из Японии» выиграл $50 тысяч.

Во время интервью я участвовал в соревновании по поиску кораблей на аэроснимках. Это была Instance segmentation задача. Я был в команде с тремя ребятами из Open Data Science. Один из них — Роман Соловьёв, достаточно известный на Kaggle Data Scientist, входит в топ-5 участников в общем рейтинге. Чтобы получить Grandmaster в соревнованиях на Kaggle, нужно собрать пять золотых медалей: хотя бы одну за сольное участие и остальные за командное. Золотые медали получают участники, занявшие 1-10 места. В этом соревновании мы вышли на 6-е место, и я получил свою 4-ую золотую медаль. Соответственно, оставалось получить ещё одно золото, чтобы достичь цели и выйти на новый уровень. 

В следующем поединке нас было уже пять человек. Объём данных был большой — порядка 50 миллионов размеченных рисунков и около 300 категорий. Нам нужно было много вычислительных мощностей, поэтому мы объединились в большую команду. Задача была в том, чтобы обучить нейронную сеть распознавать нарисованные людьми объекты в приложении. Организаторы планировали лучшее решение имплементировать в этот продукт. Мы заняли 4 место, получили золотые медали, но нам чуть-чуть не хватило до денежного приза, за третье место давали 5 тысяч долларов на команду — немного, но приятно. 

И так ты заслужил ключевую «награду» на Kaggle — статус Grandmaster? 

Да, это соревнование было решающим. В общем рейтинге я поднялся на 26 место среди 100 тысяч других участников. И пока в списке Grandmaster я единственный из Беларуси. 

Много ли на площадке Grandmaster’ов?

Здесь нужно понимать, что Grandmaster можно получить в разных категориях. Самая престижная, ценится больше всего — участие в соревнованиях. Там сейчас 150 человек. Вторая категория — это когда ты делишься с сообществом своими исследованиями, разработками, ребята лайкают твои посты, и ты зарабатываешь так рейтинг. Здесь сейчас 12 Grandmaster. И последняя — дискуссии, ты можешь отвечать на вопросы других членов сообщества, делиться своими мыслями и пр. Таких Grandmaster на площадке 12. Есть один человек, который обладает этим статусом во всех трёх категориях. 

Кстати, на Kaggle работает такая система, что, если ты не участвуешь в соревнованиях, не проявляешь никакой активности на площадке, твои очки девальвируются. Я достиг желаемого и решил сделать перерыв. За это время в общем рейтинге спустился на 79 место. 

Сделал перерыв для чего?

Последнее время не было соревнований, в которых я мог бы открыть для себя что-то новое, — мог только заработать медали, но такой цели уже нет. Выше Grandmaster на Kaggle ничего нет. Есть ребята, которые стремятся попасть в топ-10 в общем рейтинге, но это уже про другое, не про обучение. 

Ты афишировал, что получил статус Kaggle Grandmaster? Как отреагировали рекрутеры? 

Я написал пост в Linkedin, он набрал приличное количество лайков и репостов. Многие поздравляли, но я бы не сказал, что за счёт этого возросло количество интересных предложений на единицу сообщений. Конечно, интерес к профилю повысился, но не глобально. Рекрутёры писали из разных стран, в основном звали на небольшие проекты, в стартапы, на консультационную работу. Из больших компаний напрямую обращался только Facebook, у них в Лондоне была открыта вакансия. Я прошёл пару этапов собеседования по телефону и понял, что это не то, что мне хочется делать. Там Data Science больше похож на Data Analysis, нужно составлять репорты, рисовать графики — это не совсем то, что мне интересно. 

Расскажи, как получил предложение от H2O. 

На самом деле я сам их нашёл, а не они меня. Просто увидел вакансию в Slack-канале Open Data Science, написал Дмитрию Ларко, который её опубликовал (кстати, раньше работал в EPAM), и он свёл меня с эйчаром.

Как проходило собеседование?

Оно состояло из 5 этапов — это всё созвоны, в том числе с СТО и СЕО, личных встреч не было. В компании порядка 170 человек, и всех их СЕО собеседовал лично. Не сказал бы, что на интервью были супертехнические вопросы, даже если и были, то совсем немного, так как это не основная часть. Скорее задача была понять, что мне интересно, а что им. Как позже сказали, мой профиль на Kaggle закрывал техническую часть собеседования и показывал, что я умею решать задачи по машинному обучению. 

Оффер сделали в декабре, и где-то через неделю я его принял. Я регулярно подыскивал возможности поработать в иностранной компании и пожить за рубежом. Первый мой критерий при выборе места работы — сильная команда. Второй — город. Третий — финансовый вопрос, но он не основной. В H2O.ai — одна из сильнейших команд. Всего в мире порядка 150 Grandmaster’ов, в H2O.ai работает 16. Интересно, что, когда я начинал собеседоваться, я ещё не был Grandmaster’ом. Получил я его только на момент оффера. 

В Штаты я не стремился никогда, мне хотелось переехать в какой-нибудь европейский город. Чехия понравилась тем, что это недалеко, два часа на самолёте, и ты дома. К тому же, в Праге живёт много знакомых ребят, например, бывшие коллеги из Wargaming, которая не так давно перевезла туда часть команды Data Science. Ещё повлияло то, что компания небольшая, это всё ещё семилетний стартап. Есть возможность сделать что-то крутое, а не просто рисовать дашборды, которые ни на что не влияют. 

Ты подавался на рабочую визу? 

Я подавался на Blue Card, она позволяет работать и перемещаться по всему Евросоюзу, действительна два года, но её можно продлевать. Жена подавалась на вид на жительство в Чехии, он даёт право на работу и учёбу в стране. Процесс рассмотрения был долгим: мою заявку подтвердили через шесть недель, а жены — восемь-девять.

Процесс релокейта затянулся на четыре месяца. Собирать документы мы начали в январе, но в посольстве оказалась большая очередь, и мы смогли попасть туда только в апреле — это месяц, когда планировалось, что я выйду на работу. С февраля по апрель у нас все документы были на руках, и мы просто ждали. Поэтому договорились, что я начну работать удалённо. 

Переезжали мы на машине — весь багажник и задние сиденья были заставлены вещами. Ехали через Польшу с ночёвкой, и буквально на следующий день после приезда я вышел на работу. Времени на раскачку не было, я ехал и уже понимал, чем мне предстоит заниматься — буду вести проект, который начал ещё в Минске. За счёт этого мне было немного проще, я уже знал, что компания делает — с кем-то до этого общался в Slack — понимал, какие у меня будут задачи, обязанности.  Мы выбирали квартиру удалённо и помогала нам в этом компания. Был вариант приехать, пожить в отеле две недели и поискать жильё самостоятельно, но мы решили, что дважды переезд не переживём. Здесь ты заключаешь договор с агентом, прямых контактов с собственником у тебя нет. Если арендодатель захочет «зайти в гости», он должен предупредить об этом чуть ли не за месяц. Если мы заключили контракт, то это фактически наша временная собственность. В целом, квартирой довольны. Мы живём в новом доме в хорошем районе недалеко от центра, поэтому наша «двушка» с мебелью обходится нам в 1000 долларов в месяц, включая коммунальные платежи. Стоимость коммунальных услуг здесь довольно хитро рассчитывается: платишь фиксированную сумму, а потом каждые три месяца коммунальная служба пересчитывает, сколько ты израсходовал и либо возвращает лишнее, либо просит доплатить. За электричество платишь отдельно, на счёт электрической компании. 

Расскажи про H2O.ai. 

Основная её специализация — автоматическое машинное обучение. Продукт, над которым работает компания, можно поделить на две части: опенсорсную и коммерческую. В первой у нас есть набор тулов для автоматического машинного обучения, они доступны на GitHub. Во второй части эти решения представлены в более углубленном виде. Раньше, чтобы создать ML-модель, нужно было нанимать команду Data Scientist’ов, и они три месяца её «пилили». Цель autoML в том, чтобы автоматизировать этот процесс, сделать meta модель, которая бы автоматически строила модели, чистила данные, обрабатывала их и на выходе отдавала готовое решение. Встроить такую систему можно в любой продукт, она будет работать «из коробки». 

Над чем работаете?  

Я работаю в команде Data Scientist’ов, их в компании несколько типов: те, кто работают с пресейлом, продажами, те, кто общаются с клиентами, оказывают поддержку, и те, кто занимаются продуктом, улучшают качество алгоритмов. Поэтому Data Scientist’ов в H2O.ai много, и они разные, территориально расположены от Азии до Сан-Франциско. В Пражском офисе нас трое.

Меня взяли на новый проект, я «пилю» бэкенд, занимаюсь задачами компьютерного зрения, работаю с картинками. Для компании это по сути новое направление, раньше она не занималась анализом изображений. Когда меня приглашали в компанию, я говорил, что хочу попробовать две роли: писать бэкенд и общаться с клиентами. Пока я был в Минске, сложно было вклиниться в работу с заказчиками, поэтому работал только с бэкендом. Но я бы не сказал, что я классный девелопер, да мне это и не особо нравится. Пока проект на стадии ресёрча, в принципе нормально, но на постоянной основе я бы не хотел этим заниматься. Мне нравится общаться с бизнесом, решать его проблемы. 

Есть ли у тебя KPI, дедлайны, менеджер, который следит за твоей работой? 

За счёт того, что проект находится на стадии ресёрча, у нас нет конкретных сроков, логирования часов, дедлайнов, но понятно, что чем быстрее, тем лучше. При этом никто не будет стоять над тобой и говорить, что и как делать. В этом проекте по сути я работаю один, потому что компьютерное зрение — это новое направление для компании. Пока нужно сделать демо-версию, чтобы можно было показать заказчикам. Если будет коммерческий интерес, тогда будут расширять проект. Менеджера как такового у меня нет, но, можно сказать, что меня курирует Дмитрий Ларко, с которого всё началось. Он работает в американском офисе, мы с ним созваниваемся и обсуждаем, что я сделал, делимся наблюдениями, шарим ссылки, обсуждаем новости на моём проекте. 

Не тянет домой?

Вообще я хочу получить опыт работы и жизни в другом городе, но потом вернуться в Минск, потому что мне нравится этот город. К тому же, где бы я ни был, я буду ощущать себя чужим. Большинство знакомых говорит, что, если уезжаешь с семьёй, то вероятность вернуться низкая. Пока я так не думаю.

ИТ-вакансии в Беларуси можно найти здесь.

Место солидарности беларусского ИТ-комьюнити

Далучайся!

Читайте также
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
Пока 20% топ-менеджеров утверждают, что машинное обучение является существенной частью их бизнеса, неудивительно, что стоимость мирового рынка машинного обучения, по некоторым оценкам, достигнет $117 млрд к концу 2027 года. Мы перевели материал Udacity о семи самых обсуждаемых тенденциях в машинном обучении в 2022 году.
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
Разработана нейросеть, которая делает женские нюдсы
Разработана нейросеть, которая делает женские нюдсы
Разработана нейросеть, которая делает женские нюдсы
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.