Реклама на dev.by 15 июля 2021, 10:00

«Цикл завершился». Как изменилась сфера Business Intelligence за 10 лет?

Тренды в сфере BI поменялись, но подходы остались те же. Разве что раньше они назывались другими словами. Например, Data Mining теперь зовется близкими друг другу понятиями Data Science и Machine Learning. Сбор данных упростился, хранение стало дешевле. BigData-технологии уже не на пике хайпа — это уже привычные технологии для подавляющего числа крупных компаний.

Денис Макагонов, Head of Data and Analytics в Deriv, рассказывает что происходило в Business Intelligence последние 10 лет и что произойдёт в будущем.

Оставить комментарий

Deriv — онлайн-платформа для трейдинга. Компания основана в 1999 году. Насчитывает 600+ сотрудников и 10 офисов в Азии, Африке, Южной Америке и Минске.

Денис Макагонов в Deriv с 2019 года. Занимается анализом данных более 15 лет.

«Сервисы могут генерировать бесконечное число метрик и их комбинаций, параметров, измерений даже для небольших компаний»

Сейчас не возникает вопрос уровня «Сколько гигов дополнительно потребуется, если мы добавим колонку в большую базу данных?». И c переходом в cloud проблема размеров отпала сама собой, хранение терабайт и петабайт данных уже не технический, а чисто финансовый вопрос. В целом стоимость хранения данных за 10 лет снизилась на порядок.

Стало больше real time. Если раньше репорты собирались раз в день, то теперь аналитика требуется в настоящем времени, чтобы отслеживать изменения и оперативно на них реагировать. Но сами проблемы репортинга никуда не делись: консолидация данных, их очистка, верификация так и остались.

Появились новые технологии на уровне обработки потока данных, которые заменили пакетную обработку: потоковая обработка данных. Такие технологии как Apache Kafka, Apache Spark и их производные, из экзотических перешли в разряд совершенно обычных. Они помогают удовлетворять основным потребностям клиентов.

Бизнес-заказчики хотят получать репорты быстро и с огромным количеством данных. Причем не всегда понимают, зачем так много. Зачастую приходится помогать в формировании корректного запроса на аналитику, и это становится важной функцией BI команды — не только строить дашборды и отчеты по готовым требованиям, но и помогать в формировании этих требований.

Новые технологии решают еще одну проблему клиента — управление данными. Сервисы могут генерировать бесконечное число метрик и их комбинаций, параметров, измерений даже для небольших компаний. С помощью Excel (хотя Excel все еще один из самых популярных и действенных инструментов аналитика данных) их уже не проанализировать, как это делали раньше, многое попросту будет упущено. Поэтому особое внимание уделяется выделению ключевых метрик, автоматизированному поиску и анализу отклонений в метриках. На помощь приходит в том числе и machine learning.

Однако само по себе machine learning мало полезно. Risk Scoring, lead scoring, классификаторы, рекомендательные системы должны быть внедрены внутрь процессов компании. Возьмем аналитику маркетинговой кампании. С помощью предиктивных моделей machine learning можно определить, какая прибыль будет получена с одного потребителя и «выключить» неэффективные кампании.

Также в сферу BI пришли сети глубокого обучения — deep learning networks. Они решают более широкий пласт задач в основном в области поиска и управления данными и знаниями. Однако в финтехе эта технология еще не заменила классические регрессионные модели, хотя многие компании активно используют терминологию AI and Deep Learning в рекламировании своих сервисов. По большей части это, конечно же, лишь маркетинговые уловки.

Причина почему технологии deep learning все еще слабо представлены в финтехе, на мой взгляд, одна — Deep learning модели, как и подавляющее большинство моделей на основе концепции нейронных сетей, представляют собой черный ящик, результаты работы которого сложно объяснить, то есть они обладают слабой описательной силой, в отличие от классических регрессионных моделей или моделей на основе деревьев решений. То есть часто непонятно, почему нейросеть пришла к тому или иному результату. В финтехе же ценится прозрачность и ясность при принятии решений. Хотя, конечно, ясность и прозрачность — это сами по себе довольно субъективные понятия. Тем не менее движение в эту сторону определенно есть.

«Machine learning все ближе становится к engineering»

Если говорить о трендах, то в топе нейросети, которые распознают образы и предметы. Причем это больше идет на client side. Например, как работает распознавание у камер последних моделей смартфонов. Это значит, что подобные BI-решения тоже переносятся на девайсы пользователей, потому что мощности уже позволяют делать это автономно.

Еще одним важным трендом является так называемый AutoML — это системы которые подбирают оптимальные алгоритмы обработки и обучения моделей в автоматическом или автоматизированном режиме на основе анализа исходного набора данных, сами выполняют оптимизацию собственных параметров и т. п.

В трендах финтех — технологии блокчейн, их онлайн-интеграции между собой.

Machine learning все ближе становится к engineering. Появилось понятие «хранилище фич» — аналог хранилища данных, которыми пользуются Data Scientists. Сформировались команды ML engineers, что соответствует концепции IDL engineers в концепции BI.

Еще один тренд — это self service BI. В профессиональном сообществе о нем неоднозначные мнения. Например, с помощью Tableau, Power BI, Google data studio, Qlick и других доступных инструментов пользователь получает доступ к хранилищу и генерирует репорты. Он получает огромное их количество и задается вопросом: а соответствуют ли они потребностям его бизнеса? Также self service BI снижает порог вхождения, что обостряет необходимость обучения обращения с данными. Для эффективного анализа нужно, как минимум, владеть терминологическим словарем, знать жизненные циклы репортов и т. д.

Второе дыхание получили системы Data Governments. Раньше они считались эксцентричными из-за размытости решаемой проблемы. Сейчас конечная цель стала понятной — это получение более управляемой системы с точными ответами, например, для маркетинга.

Специалисты решают все сами, вместо того, чтобы идти к BI-службам, ждать, пока они обработают запрос и только через некоторое время выдадут информацию. Такие процессы привели к появлению должностей Chief data officer, Chief analytic officer и другим executive позициям.

Наконец, концепция data driven трансформируется в data informed. Современные методы позволяют получить точные данные. Но финальное бизнес-решение принимается не только на основе их, но и других факторов. Потому что data driven — жесткий и однозначный подход, а живем мы в динамичном мире.

«Из-за быстрого роста подход к стратегии BI пришлось поменять»

Изначально Deriv строилась вокруг quantitative analytics трейдинга и прайсинга. Внедрение общего BI в маркетинг и другие департаменты произошло два с половиной года назад.

Сейчас machine learning и data science применяются в маркетинге и риск-менеджменте. С помощью lead scoring модели обучаются определять качество лидов, которые уже есть в базе. Причем используются только поведенческие характеристики, чтобы избежать искажений. Таким образом paid acquisition понимает собственную эффективность.

В риск-менеджменте Deriv такие методы помогают определить фрод-активность. Продуктом компании пользуются люди в 150 странах. Как и у любой торговой площадки, встречаются недобросовестные трейдеры, которые пытаются читить. В условиях высокой нагрузки таких пользователей было бы сложно отследить, если бы не алгоритмы machine learning.

Снова стал остро стоять вопрос data governments. Дело в том, что за последние 2 года компания выросла в шесть раз. Это тоже повлияло на стратегию BI. Изначально доступ к ядру аналитики получили около 50 человек. Но из-за быстрого роста подход к стратегии BI пришлось поменять. Понадобилось доставлять аналитику гораздо большему кругу заказчиков, что конечно же отражалось бы на стоимости, например, лицензий. Также из-за взрывного роста появились люди, которые не перешли на новую терминологию, принятую в компании. Для этого компания внедряет business glossary вроде Википедии данных.

Еще одна проблема в рамках концепции data governments — это синхронизация результатов исследований BI и исследований проводимых внутри отдельных департаментов. Иногда случается, что аналитика проводится параллельно в BI и в департаменте, используются разные методологии, и результаты получаются противоречивыми, что осложняет принятие решений. Для того, чтобы решить этот вопрос, в Deriv практикуется создание системы управления знаниями. Так, на одном из текущих маркетинговых проектов мы строим дата-хаб. В нем собираются отчеты, аналитические документы, результаты а/б тестов, опросы, дашборды, и отчеты подготовленные как BI-командой самостоятельно, так и командой маркетинга.

Наконец, Deriv продолжает переход на микросервисы. Инфраструктура компании должна быть гибкой, поэтому в необходимых местах (там где имеются высокие пиковые нагрузки и нужна возможность горизонтального расширения) применяются именно такие решения вместо монолитных систем. Вообще, это холиварный вопрос. В Deriv мы предпочитаем подходить рационально к вопросам архитектуры, если есть обоснованные аргументы за ту или иную технологию, почему бы и не применить.

Сотрудники компании понимают, что мир быстро меняется. Поэтому в работу интегрируется большое количество систем. Каждая из них тестируется с помощью plug in — plug out методики и закрепляется, выпиливается, если не подходит либо заменяется на собственные разработки.

«Еще одна из фишек Deriv — это то, что разработчики дополнительно пишут модули в Apache Airflow»

В Deriv используются 3 основные BI-системы. Первой такой системой был Metabase open source продукт для продвинутых пользователей, которые могут писать SQL запросы, они могут настроить отчеты или дашборды в Metabase, разошлют нотификации по расписанию и т. д. Но с точки зрения self service BI он подходит не всем. Вторым решением стала Tableau Online с несколькими лицензиями, позволяющих создавать репорты и несколькими десятками лицензий, которые дают доступ к просмотру этих репортов. Таким образом, BI создает отчеты и дашборды, а остальные ими пользуются.

В качестве промежуточной системы используем Google data studio, потому что главный потребитель услуг — это маркетинг. BI использует BigQuery в качестве хранилища данных, строит в нем плоские модели и передает их маркетингу. Тот с помощью Google data studio строит свои дашборды. Саппортит процесс программа Data Ambassadors. С помощью нее потребитель учится использовать полученные данные, различать метрики, выходит на единую терминологическую базу с Deriv. Все три системы подключены к единому Хранилищу данных, поэтому данные в отчетах консистентны (за исключением случаев когда применяются различные методологии расчета).

Еще одна из фишек Deriv — это то, что разработчики дополнительно пишут модули в Apache Airflow, он используется как оркестратор интеграционных процессов.

«Будут развиваться системы анонимизации и global data protection»

Будущее отрасли видится за автоматизацией аналитики. Она скроет сложность расчетов и выдаст на поверхность важные метрики. Взять, например, natural language processing. Это когда вопрос, заданный на обычном языке, переводится в бизнес-запрос к базе данных.

Например, в Power BI интегрирован голосовой помощник. Это большой пласт работы для BI, ведь нужно создать семантический уровень, который позволит помощнику трансформировать вопросы в четкие запросы к базе данных.

Если брать направления развития BI, то здесь видится два пути:

Усложнение с увеличением функций. Пример тому Facebook, который предлагает лавину опций для аналитики. Но, по факту, люди смотрят на две-три метрики.
Упрощение. Слишком много аналитики вводит в ступор, когда специалист не может выдать эффективное решение. C этой точки зрения интересна мобильная аналитика. Специалисты внедряют готовые схемы вроде Kissmetrics или Pirate Metrics в качестве фреймворков и все. В итоге получается готовая модель, которая подходит и для трейдинга, и для дейтинга приложений. Она показывает ARPU, MAU, DAU, activation rate и т. д. При этом еще и выдаст рекомендации по улучшению.

Будут развиваться системы анонимизации и global data protection. Тон задала Apple, которая ввела ограничения на сбор информации девайсов, что негативно повлияло на рекламную отрасль. С одной стороны, это защищает пользователей, но с другой, новый челлендж для BI-щиков.

Наконец, все будет переходить в облако. Это поможет упростить процессы maintenance.

Читать на dev.by