В данной статье мы собрали самые интересные события, произошедшие в мире Hadoop в мае 2013. Отчет подготовлен R&D департаментом Altoros.
В этом обзоре:
• 75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
• Cloudera Development Kit: новый SDK для Hadoop-разработчиков
• Обзор Hadoop в трех статьях
• HDInsight может быть выпущен уже этим летом
• Обзор Hadoop дистрибутивов и инструментов
• Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
• Concurrent выпустила новый вычислительный движок для machine-learning приложений
• Hadoop сыграл ведущую роль в успехе McLaren’s F1
• Вышла версия Hive 0.11.0
75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
В статье “Hadoop Adoption Accelerates, But Not For Data Analytics,” Matt Asay из 10gen, компании, разрабатывающей MongoDB, обращает внимание на одно важное противоречие. В то время как Hadoop широко известен как мощный инструмент для аналитики и вычислений, в реальности более 75% компаний уровня энтерпрайз используют его как хранилище данных и для ETL-операций (Extract, Transform, and Load). Тем не менее, это не говорит о том, что возможности Hadoop некорректно использовались ранее или используются сейчас. Данный факт свидетельствует о существующем положении дел на рынке. Asay также приводит доклад Matt Aslett, озвученный на Hadoop Summit в марте. Aslett считает, что переход в использовании Hadoop от хранилищ данных до аналитики в перспективе – естественный процесс. Таким образом, переход компаний, которые в настоящий момент занимаются лишь сбором данных, к тому, чтобы начать использовать все «невостребованные» возможности Hadoop – это лишь вопрос времени.
Cloudera Development Kit: новый SDK для Hadoop-разработчиков
Cloudera – провайдер ПО и сервисов, основанных на Hadoop – анонсировала Cloudera Development Kit (CDK). Это открытый проект, ориентированный на программистов, которые разрабатывают приложения, используя CDH – главный дистрибутив Hadoop, выпускаемый компанией. Проект представляет собой главным образом коллекцию библиотек, инструментов, примеров и документации – все это призвано упростить наиболее частые задачи, с которыми сталкиваются разработчики при использовании CDH-платформы. Первый релиз (версия 0.2.0) – это модуль CDK-data, которой включает в себя API для различных операций с хранилищами данных в Hadoop. Тем не менее, Cloudera заявляет, что фреймворк будет расширяться за счет включения компонентов для выполнения различных сценариев использования Hadoop. Будучи хорошо структурированным, документированным и открытым, SDK сможет соответствовать требованиям большинства разработчиков.
Обзор Hadoop в трех статьях
Jonathan Gershater выпустил серию статей, рассказывающих об основных положениях работы Hadoop и обработке больших данных. В первой статье он описывает вопросы, связанные с аналитикой огромных объемов данных, объясняет, как применяется в данном случае подход MapReduce и представляет Hadoop в качестве одного из инструментов для решения такого рода задач. Следующая статья углубляется в структуру Hadoop и базовую терминологию (такую как DataNode, Job, HDFS). Автор также вкратце перечисляет сопутствующие проекты: Apache Pig, Apache Hive, HBase, Mahout и т.д. Третья статья фокусируется на центральных компонентах Hadoop и итерации между ними. Она объясняет преимущества файловой системы HDFS перед NTFS и описывает сущность модели MapReduce, в том числе, как она реализуется внутри Hadoop с помощью job’ов.
HDInsight может быть выпущен уже этим летом
HDInsight – платформа Hadoop, разработанная Microsoft на базе Windows Azure. С марта 2013 она находилась в статусе beta и “almost ready for prime time.” Новость о возможном релизе была озвучена Andrew Brust, исполнительным директором компании Blue Badge Insights, которая предоставляет стратегические и консалтинговые услуги клиентам и партнерам Microsoft. Во время сессии Visual Studio Live! в Чикаго Andrew Brust поделился информацией о текущем статусе сервиса. Он сообщил о том, что в целом HDInsight функционирует хорошо, однако все еще имеет некоторые проблемы с запросами к большим файловым хранилищам данных. По мнению Andrew Brust, это общая проблема дистрибутивов Hadoop и «Hadoop еще не готов для энтерпрайзов».
Обзор Hadoop дистрибутивов и инструментов
Если вы представитель энтерпрайза, погрязшего в гигантских массивах неструктурированных данных, и никогда не работавшего ни с одним из Hadoop дистрибутивов, наверняка вам будет полезно ознакомиться с обзором, выполненным Timothy Prickett Morgan. В своей статье “Making Hadoop Elephants Drink From Silverlake,” редактор и автор IT Jungle дает краткое описание Amazon’s Elastic MapReduce, Microsoft’s HDInsight, Google’s BigQuery, BIME’s front-end для BigQuery и Splunk. Каждое решение описано с различных углов зрения: общая архитектура, ключевые характеристики, стоимость и т.д.
Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
Компания Concurrent, известная своей популярной среди энтерпрайзов платформой для работы с большими данными, анонсировала свое партнерство с MapR Technologies, ведущим провайдером технологий Hadoop. В пресс-релизе, опубликованном 15 мая, говорится о том, что целью сделки является расширение использования Apache Hadoop среди компаний уровня энтерпрайз с помощью включения функциональности разработки MapR в Cascading framework, выпускаемого Concurrent.
Concurrent выпустила новый вычислительный движок для machine-learning приложений
21 мая, спустя 6 дней после анонсирования партнерства с MapR Technolodgies, Concurrent объявила о запуске своего нового проекта Pattern, который работает поверх Cascading framework. Это открытый, основанный на стандартах, движок, который позволяет специалистам по анализу данных и разработчикам быстро разворачивать machine-learning приложения на Apache Hadoop. С Pattern компании могут запускать свои существующие machine-learning модели на Hadoop с использованием Predictive Model Markup Language (PMML) или через программный интерфейс.
Hadoop сыграл ведущую роль в успехе McLaren’s F1
Stuart Birrell, CIO в британской McLaren Group рассказал, как компания использует результаты обработки больших данных для разработки гоночных болидов для Formula 1: дорогостоящих автомобилей, велосипедов и даже медицинского оборудования. Проанализировав «тонны» данных за последние годы, отделы McLaren – McLaren Electronic Systems, McLaren Applied Technologies, and McLaren Racing – научились извлекать пользу из больших массивов данных с помощью Hadoop и схожих технологий. Например, каждая гоночная машина оснащена более чем 160 сенсорами, которые во время гонок генерируют гигабайты необработанных данных. Эти данные в дальнейшем используются в физических моделях и тестировании, что влечет за собой поступление новых данных. Таким образом, компания постоянно находится в центре замкнутого цикла исследований, и ее автомобили могут подвергаться модифицированию каждый день или каждый час. Команда McLaren’а уверена, что такой эволюционный путь – ключ к их успеху.
Вышла версия Hive 0.11.0
Новая версия Hive, системы хранения данных для Hadoop, выпущена 15 мая. Основные возможности:
• Имплементация Optimized RC File, что позволяет увеличить скорость доступа к данным в Hive с помощью метаинформации
• Поддержка типа данных decimal
• Новые весовые функции: RANK, LEAD/LAG, ROW_NUMBER, FIRST_VALUE, LAST_VALUE и другие
• Различные оптимизации join’ов.
Это были тезисы основных новостей, касающихся Hadoop, по состоянию на конец мая 2013 года. Будьте в курсе событий вместе с нашей командой!
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.