Подписывайтесь на «Что к чему» —
анамнез и главные симптомы беларуского ИТ.
Цифры, графика, ничего лишнего. Выходит раз в 2 недели.
Спасибо! На указанный адрес отправлено письмо для подтверждения подписки.
Senior DevOps ($5-8k), Back-End и Front-End — вакансии Cycode, Варшава

«Цикл завершился». Как изменилась сфера Business Intelligence за 10 лет?

Тренды в сфере BI поменялись, но подходы остались те же. Разве что раньше они назывались другими словами. Например, Data Mining теперь зовется близкими друг другу понятиями Data Science и Machine Learning. Сбор данных упростился, хранение стало дешевле. BigData-технологии уже не на пике хайпа — это уже привычные технологии для подавляющего числа крупных компаний.

Денис Макагонов, Head of Data and Analytics в Deriv, рассказывает что происходило в Business Intelligence последние 10 лет и что произойдёт в будущем.

Оставить комментарий
«Цикл завершился». Как изменилась сфера Business Intelligence за 10 лет?

Тренды в сфере BI поменялись, но подходы остались те же. Разве что раньше они назывались другими словами. Например, Data Mining теперь зовется близкими друг другу понятиями Data Science и Machine Learning. Сбор данных упростился, хранение стало дешевле. BigData-технологии уже не на пике хайпа — это уже привычные технологии для подавляющего числа крупных компаний.

Денис Макагонов, Head of Data and Analytics в Deriv, рассказывает что происходило в Business Intelligence последние 10 лет и что произойдёт в будущем.

Deriv — онлайн-платформа для трейдинга. Компания основана в 1999 году. Насчитывает 600+ сотрудников и 10 офисов в Азии, Африке, Южной Америке и Минске.

Денис Макагонов в Deriv с 2019 года. Занимается анализом данных более 15 лет.

«Сервисы могут генерировать бесконечное число метрик и их комбинаций, параметров, измерений даже для небольших компаний»

Сейчас не возникает вопрос уровня «Сколько гигов дополнительно потребуется, если мы добавим колонку в большую базу данных?». И c переходом в cloud проблема размеров отпала сама собой, хранение терабайт и петабайт данных уже не технический, а чисто финансовый вопрос. В целом стоимость хранения данных за 10 лет снизилась на порядок. 

Стало больше real time. Если раньше репорты собирались раз в день, то теперь аналитика требуется в настоящем времени, чтобы отслеживать изменения и оперативно на них реагировать. Но сами проблемы репортинга никуда не делись: консолидация данных, их очистка, верификация так и остались. 

Появились новые технологии на уровне обработки потока данных, которые заменили пакетную обработку: потоковая обработка данных. Такие технологии как Apache Kafka, Apache Spark и их производные, из экзотических перешли в разряд совершенно обычных. Они помогают удовлетворять основным потребностям клиентов.

Бизнес-заказчики хотят получать репорты быстро и с огромным количеством данных. Причем не всегда понимают, зачем так много. Зачастую приходится помогать в формировании корректного запроса на аналитику, и это становится важной функцией BI команды — не только строить дашборды и отчеты по готовым требованиям, но и помогать в формировании этих требований. 

Новые технологии решают еще одну проблему клиента — управление данными. Сервисы могут генерировать бесконечное число метрик и их комбинаций, параметров, измерений даже для небольших компаний. С помощью Excel (хотя Excel  все еще один из самых популярных и действенных инструментов аналитика данных) их уже не проанализировать, как это делали раньше, многое попросту будет упущено.  Поэтому особое внимание уделяется выделению ключевых метрик, автоматизированному поиску и анализу отклонений в метриках. На помощь приходит в том числе и machine learning.  

Однако само по себе machine learning мало полезно. Risk Scoring, lead scoring, классификаторы, рекомендательные системы должны быть внедрены внутрь процессов компании. Возьмем аналитику маркетинговой кампании. С помощью предиктивных моделей machine learning можно определить, какая прибыль будет получена с одного потребителя и «выключить» неэффективные кампании.

Также в сферу BI пришли сети глубокого обучения — deep learning networks. Они решают более широкий пласт задач в основном в области поиска и управления данными и знаниями. Однако в финтехе эта технология еще не заменила классические регрессионные модели, хотя многие компании активно используют терминологию AI and Deep Learning в рекламировании своих сервисов. По большей части это, конечно же, лишь маркетинговые уловки. 

Причина почему технологии deep learning  все еще слабо представлены в финтехе, на мой взгляд, одна — Deep learning модели, как и подавляющее большинство моделей на основе концепции нейронных сетей, представляют собой черный ящик, результаты работы которого сложно объяснить, то есть они обладают слабой описательной силой, в отличие от классических регрессионных моделей или моделей на основе деревьев решений. То есть часто непонятно, почему нейросеть пришла к тому или иному результату. В финтехе же ценится прозрачность и ясность при принятии решений. Хотя, конечно, ясность и прозрачность — это сами по себе довольно субъективные понятия. Тем не менее движение в эту сторону определенно есть.

«Machine learning все ближе становится к engineering»

Если говорить о трендах, то в топе нейросети, которые распознают образы и предметы. Причем это больше идет на client side. Например, как работает распознавание у камер последних моделей смартфонов. Это значит, что подобные BI-решения тоже переносятся на девайсы пользователей, потому что мощности уже позволяют делать это автономно. 

Еще одним важным трендом является так называемый AutoML — это системы которые подбирают оптимальные  алгоритмы обработки и обучения моделей в автоматическом или автоматизированном режиме на основе анализа исходного набора данных, сами выполняют оптимизацию собственных параметров  и т. п.

В трендах финтех — технологии блокчейн, их онлайн-интеграции между собой.  

Machine learning все ближе становится к engineering. Появилось понятие  «хранилище фич» — аналог хранилища данных, которыми пользуются Data Scientists. Сформировались команды ML engineers, что соответствует концепции IDL engineers в концепции BI.

Еще один тренд — это self service BI. В профессиональном сообществе о нем неоднозначные мнения. Например, с помощью Tableau, Power BI, Google data studio, Qlick и других доступных инструментов пользователь получает доступ к хранилищу и генерирует репорты. Он получает огромное их количество и задается вопросом: а соответствуют ли они потребностям его бизнеса? Также self service BI снижает порог вхождения, что обостряет необходимость обучения обращения с данными. Для эффективного анализа нужно, как минимум, владеть терминологическим словарем, знать жизненные циклы репортов и т. д. 

Второе дыхание получили системы Data Governments. Раньше они считались эксцентричными из-за размытости решаемой проблемы. Сейчас конечная цель стала понятной — это получение более управляемой системы с точными ответами, например, для маркетинга. 

Специалисты решают все сами, вместо того, чтобы идти к BI-службам, ждать, пока они обработают запрос и только через некоторое время выдадут информацию. Такие процессы привели к появлению должностей Chief data officer, Chief analytic officer и другим executive позициям.

Наконец, концепция data driven трансформируется в data informed. Современные методы позволяют получить точные данные. Но финальное бизнес-решение принимается не только на основе их, но и других факторов. Потому что data driven — жесткий и однозначный подход, а живем мы в динамичном мире.

«Из-за быстрого роста подход к стратегии BI пришлось поменять»

Изначально Deriv строилась вокруг quantitative analytics трейдинга и прайсинга. Внедрение общего BI в маркетинг и другие департаменты произошло два с половиной года назад. 

Сейчас machine learning и data science применяются в маркетинге и риск-менеджменте. С помощью lead scoring модели обучаются определять качество лидов, которые уже есть в базе. Причем используются только поведенческие характеристики, чтобы избежать искажений. Таким образом paid acquisition понимает собственную эффективность. 

В риск-менеджменте Deriv такие методы помогают определить фрод-активность. Продуктом компании пользуются люди в 150 странах. Как и у любой торговой  площадки, встречаются недобросовестные трейдеры, которые пытаются читить. В условиях высокой нагрузки таких пользователей было бы сложно отследить, если бы не алгоритмы machine learning.

Снова стал остро стоять вопрос data governments. Дело в том, что за последние 2 года компания выросла в шесть раз. Это тоже повлияло на стратегию BI. Изначально доступ к ядру аналитики получили около 50 человек. Но из-за быстрого роста подход  к стратегии BI пришлось поменять. Понадобилось доставлять аналитику гораздо большему кругу заказчиков, что конечно же отражалось бы на стоимости, например, лицензий. Также из-за взрывного роста появились люди, которые не перешли на новую терминологию, принятую в компании. Для этого компания внедряет business glossary вроде Википедии данных. 

Еще одна проблема в рамках концепции data governments  — это  синхронизация результатов исследований BI и исследований проводимых внутри отдельных департаментов. Иногда случается, что аналитика проводится параллельно в BI и в департаменте, используются разные методологии, и результаты получаются противоречивыми, что осложняет принятие решений. Для того, чтобы решить этот вопрос, в Deriv практикуется создание системы управления знаниями. Так, на одном из текущих маркетинговых проектов мы строим дата-хаб. В нем собираются отчеты, аналитические документы, результаты а/б тестов, опросы, дашборды, и отчеты подготовленные как BI-командой самостоятельно, так и командой маркетинга. 

Наконец, Deriv продолжает переход на микросервисы. Инфраструктура компании должна быть гибкой, поэтому в необходимых местах (там где имеются высокие пиковые нагрузки и нужна возможность горизонтального расширения) применяются именно такие решения вместо монолитных систем. Вообще, это холиварный вопрос. В Deriv мы предпочитаем подходить рационально к вопросам архитектуры, если есть обоснованные аргументы за ту или иную технологию, почему бы и не применить. 

Сотрудники компании понимают, что мир быстро меняется. Поэтому в работу интегрируется большое количество систем. Каждая из них тестируется с помощью plug in — plug out методики и закрепляется, выпиливается, если не подходит либо заменяется на собственные разработки.

«Еще одна из фишек Deriv  — это то, что разработчики дополнительно пишут модули в Apache Airflow»

В Deriv используются 3 основные BI-системы. Первой такой системой был Metabase open source продукт для продвинутых пользователей, которые могут писать SQL запросы, они могут настроить отчеты или дашборды в Metabase, разошлют нотификации по расписанию и т. д. Но с точки зрения self service BI он подходит не всем. Вторым решением стала Tableau Online с несколькими лицензиями, позволяющих создавать репорты и несколькими десятками лицензий, которые дают доступ к просмотру этих репортов. Таким образом, BI создает отчеты и дашборды, а остальные ими пользуются. 

В качестве промежуточной системы используем Google data studio, потому что главный потребитель услуг — это маркетинг. BI использует BigQuery в качестве хранилища данных, строит в нем плоские модели и передает их маркетингу. Тот с помощью Google data studio строит свои дашборды. Саппортит процесс программа Data Ambassadors. С помощью нее потребитель учится использовать полученные данные, различать метрики, выходит на единую терминологическую базу с Deriv. Все три системы подключены к единому Хранилищу данных, поэтому данные в отчетах консистентны (за исключением случаев когда применяются различные методологии расчета).

Еще одна из фишек Deriv  — это то, что разработчики дополнительно пишут модули в Apache Airflow, он используется как оркестратор интеграционных процессов. 

«Будут развиваться системы анонимизации и global data protection»

Будущее отрасли видится за автоматизацией аналитики. Она скроет сложность расчетов и выдаст на поверхность важные метрики. Взять, например, natural language processing. Это когда вопрос, заданный на обычном языке, переводится в бизнес-запрос к базе данных. 

Например, в Power BI интегрирован голосовой помощник. Это большой пласт работы для BI, ведь нужно создать семантический уровень, который позволит помощнику трансформировать вопросы в четкие запросы к базе данных.  

Если брать направления развития BI, то здесь видится два пути:

  •  Усложнение с увеличением функций. Пример тому Facebook, который предлагает лавину опций для аналитики. Но, по факту, люди смотрят на две-три метрики. 
  • Упрощение. Слишком много аналитики вводит в ступор, когда специалист не может выдать эффективное решение. C этой точки зрения интересна мобильная аналитика. Специалисты внедряют готовые схемы вроде Kissmetrics или Pirate Metrics в качестве фреймворков и все. В итоге получается готовая модель, которая подходит и для трейдинга, и для дейтинга приложений. Она показывает ARPU, MAU, DAU, activation rate и т. д. При этом еще и выдаст рекомендации по улучшению. 

Будут развиваться системы анонимизации и global data protection. Тон задала Apple, которая ввела ограничения на сбор информации девайсов, что негативно повлияло на рекламную отрасль. С одной стороны, это защищает пользователей, но с другой, новый челлендж для BI-щиков. 

Наконец, все будет переходить в облако. Это поможет упростить процессы maintenance.

Подписывайтесь на «Что к чему» —
анамнез и главные симптомы беларуского ИТ.
Цифры, графика, ничего лишнего. Выходит раз в 2 недели.
Спасибо! На указанный адрес отправлено письмо для подтверждения подписки.
Читайте также
Кто такой Quantitative Analyst? Обзор изнутри от Ракшитa Чудхари
Кто такой Quantitative Analyst? Обзор изнутри от Ракшитa Чудхари
Кто такой Quantitative Analyst? Обзор изнутри от Ракшитa Чудхари
О профессии рассказывает Ракшит Чудхари, СОO международной трейдинговой компании Deriv.  Продолжаем цикл материалов про ИТ-специальности. Каждую из них описывает «типичный представитель» — опытный специалист. Надеемся, что цикл поможет школьникам, студентам, переквалификантам, джуниорам и сочувствующим выбрать специальность в ИТ, оценить свои перспективы или просто сверить часы с авторитетным коллегой. Можно обсуждать и дополнять материал в комментариях, чтобы сделать его ещё полезней. Спикер и автор материала поддержат дискуссию и ответят на вопросы.
11 комментариев
Зачем открывать офис в Минске сегодня? Рассказывает СЕО Deriv
Зачем открывать офис в Минске сегодня? Рассказывает СЕО Deriv
Зачем открывать офис в Минске сегодня? Рассказывает СЕО Deriv
Встретились с основателем и гендиректором компании Deriv Жан-Ивом Сиро чтобы узнать, зачем сегодня открывать физический офис в Минске, как идёт хайринг и кого ждут в компании. 
8 комментариев
«Чтобы не вариться в супе данных, нужно уметь их структурировать»
«Чтобы не вариться в супе данных, нужно уметь их структурировать»
«Чтобы не вариться в супе данных, нужно уметь их структурировать»
Business в квадрате: бизнес-аналитики в Business Intelligence
Business в квадрате: бизнес-аналитики в Business Intelligence
Business в квадрате: бизнес-аналитики в Business Intelligence

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.