Презентация результатов использования обучения без учителя во время дататона. На фото Максим Ходар, участник команды Maks and Friends (источник)
Когда на руках у компании супермассивы данных, хочется извлечь из этого бизнес-пользу. Как это сделать, расскажем на примере опыта участия в дататоне нашей сотрудницы Ольги Лейба.
Дататон (datathon) – то же, что и хакатон, но с фокусом на решении задач, связанных с интеллектуальным анализом данных (machine learning). Участники форума, организованного стартап-хабом Imaguru, смогли проверить, как работает машинное обучение на практике.
Читать дальше
Чего ожидали спонсоры
Компания velcom и Приорбанк в рамках своих заданий предоставили данные о клиентах. Информация была подана в обезличенном виде. velcom ожидала получить инструмент прогнозирования ухода пользователей на основе классической модели анализа – обучение с учителем (supervised learning).
Обучение с учителем – вид принудительного машинного обучения, при котором система учится устанавливать взаимосвязи между объектами и подходящими ответами из обучающей выборки. Подходит для задач, в которых нужно предсказать величину объекта на основе конечного числа примеров. Например, определить возраст пользователя по его действиям в интернете.
Приорбанку были любопытны любые идеи, сгенерированные в процессе анализа данных о клиентах банка. Здесь пригодился метод кластеризации или обучение без учителя (unsupervised learning).
Обучение без учителя – вид спонтанного машинного обучения без участия человека. Система располагает только входными данными (объектами) и должна научиться устанавливать взаимосвязи и закономерности, не имея ответов. Подходит для задач, где нужно найти группы похожих объектов по каким-то параметрам. Например, сегментация пользователей мобильного оператора.
Как действовала команда
Метод обучения без учителя: чем интересен
По словам Ольги, их команде было интересно попробовать свои силы в поиске взаимосвязей и закономерностей реальных данных с использованием метода обучение без учителя и попытаться понять, как полученная информация может пригодиться в бизнесе. Особый драйв участию придавал факт того, что результат будет непредсказуемым.
В задаче – реальные данные
Пример данных, с которыми предстояло работать участникам дататона, используя метод обучение без учителя
Проанализированы все виды назначений платежей и установлены связи. Чем больше совпадений в платежах по нескольким сервисам, тем выше зависимость (толще линия соединения)
Вызов: обработать данные за два дня
На решение задачи было отпущено два дня: данные выдали в пятницу вечером, а в воскресенье вечером команда должна была представить результаты. Идей было много и хотелось попробовать самые разные варианты, но из-за горящих сроков успели сделать меньше, чем рассчитывали.
Что в результате
Визуализация кластеров с помощью Matplotlib
Члены команды успели сделать стандартную обработку неразмеченных данных – понизили размерность, провели кластеризацию, сделали корреляционный анализ. Для этого использовали такие инструменты, как Python, t-SNE, DBSCAN, Matplotlib. Команда также провела корректировку под реальность данных. Например, удивило одно значение, которое выбивалось из остальных чисел (outlier) – стоимость поездки на Uber в 16 000. При более тщательном анализе оказалось, что параметр платежа указан в иностранной валюте. После того, как команда конвертировала основные валюты, а редкие просто отсекла, получилась более понятная картина.
К утру воскресенья команде удалось найти в данных несколько взаимосвязей и трендов, похожих на правду. Их и представили жюри, чтобы продемонстрировать, что метод анализа данных без учителя способен дать содержательную информацию для дальнейшей работы аналитиков и маркетологов. Например, оба подхода, которые использовала команда – анализ на графе и кластеризация – показали связь между теми, кто ездит на Uber, и теми, кто совершает покупки в ITunes. А кластер, расположенный недалеко от первого, выявил связь, что держатели карт в иностранной валюте – это молодые люди, которые любят посидеть в кафе и ресторанах.
Победу по задаче от Приорбанка одержала команда Maks and Friends, в составе которой была и Ольга Лейба.
Обучение без учителя: беспристрастное подтверждение гипотез
Метод анализа данных обучение без учителя позволяет беспристрастно генерировать гипотезы через прогон всех данных и, таким образом, их подтверждать. Здесь отсутствуют причинно-следственные связи, и для результатов характерна нестабильность. Например, команда выдвинула гипотезу, что если человек любит фаст-фуд, то будет тратить деньги в точках быстрого питания разных поставщиков. Однако такой связи обнаружено не было.
Этот метод будет полезен компаниям, у которых накоплен большой массив данных о клиентах. Если компании важно быстро реагировать на то, как меняются предпочтения и покупательская активность клиентов, то такая модель анализа позволит получать информацию без искажений и взвешенно корректировать подход и методы предоставления услуг.
Ольга считает область машинного обучения крайне интересной и перспективной и планирует изучать ее и дальше. В планах освоить современные инструменты для визуализации данных, чтобы результаты получались более наглядными.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.