Support us

Обзор основных событий в мире Hadoop в мае 2013

Оставить комментарий
Обзор основных событий в мире Hadoop в мае 2013

В данной статье мы собрали самые интересные события, произошедшие в мире Hadoop в мае 2013. Отчет подготовлен  R&D департаментом Altoros.

В этом обзоре:
• 75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
• Cloudera Development Kit: новый SDK для Hadoop-разработчиков
• Обзор Hadoop в трех статьях
• HDInsight может быть выпущен уже этим летом
• Обзор Hadoop дистрибутивов и инструментов
• Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
• Concurrent выпустила новый вычислительный движок для machine-learning приложений
• Hadoop сыграл ведущую роль в успехе McLaren’s F1
• Вышла версия Hive 0.11.0

читать далее

75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
В статье “Hadoop Adoption Accelerates, But Not For Data Analytics,” Matt Asay из 10gen, компании, разрабатывающей MongoDB, обращает внимание на одно важное противоречие. В то время как Hadoop широко известен как мощный инструмент для аналитики и вычислений, в реальности более 75% компаний уровня энтерпрайз используют его как хранилище данных и для ETL-операций (Extract, Transform, and Load). Тем не менее, это не говорит о том, что возможности Hadoop некорректно использовались ранее или используются сейчас. Данный факт свидетельствует о существующем положении дел на рынке.  Asay также приводит доклад Matt Aslett,  озвученный на Hadoop Summit в марте. Aslett считает, что переход в использовании Hadoop от хранилищ данных до аналитики в перспективе – естественный процесс. Таким образом, переход компаний, которые в настоящий момент занимаются лишь сбором данных, к тому, чтобы начать использовать все «невостребованные» возможности Hadoop – это лишь вопрос времени.

Cloudera Development Kit: новый SDK для Hadoop-разработчиков
Cloudera – провайдер ПО и сервисов, основанных на Hadoop – анонсировала Cloudera Development Kit (CDK). Это открытый проект, ориентированный на программистов, которые разрабатывают приложения, используя CDH – главный дистрибутив Hadoop, выпускаемый компанией. Проект представляет собой главным образом коллекцию библиотек, инструментов, примеров и документации – все это призвано упростить наиболее частые задачи, с которыми сталкиваются разработчики при использовании CDH-платформы. Первый релиз (версия 0.2.0) – это модуль CDK-data, которой включает в себя API для различных операций с хранилищами данных в Hadoop. Тем не менее, Cloudera заявляет, что фреймворк будет расширяться за счет включения компонентов для выполнения различных сценариев использования Hadoop. Будучи хорошо структурированным, документированным и открытым, SDK сможет соответствовать требованиям большинства разработчиков.

Обзор Hadoop в трех статьях
Jonathan Gershater выпустил серию статей, рассказывающих об основных положениях работы Hadoop и обработке больших данных. В первой статье он описывает вопросы, связанные с аналитикой огромных объемов данных, объясняет, как применяется в данном случае подход MapReduce и представляет Hadoop в качестве одного из инструментов для решения такого рода задач. Следующая статья углубляется в структуру Hadoop и базовую терминологию (такую как DataNode, Job, HDFS). Автор также вкратце перечисляет сопутствующие проекты:  Apache Pig, Apache Hive, HBase, Mahout и т.д. Третья статья фокусируется на центральных компонентах Hadoop и итерации между ними. Она объясняет преимущества файловой системы HDFS перед NTFS и описывает сущность модели MapReduce, в том числе, как она реализуется внутри Hadoop с помощью job’ов.

HDInsight может быть выпущен уже этим летом
HDInsight – платформа Hadoop, разработанная Microsoft на базе Windows Azure. С марта 2013 она находилась в статусе beta и “almost ready for prime time.” Новость о возможном релизе была озвучена Andrew Brust, исполнительным директором компании Blue Badge Insights, которая предоставляет стратегические и консалтинговые услуги клиентам и партнерам Microsoft. Во время сессии  Visual Studio Live! в Чикаго Andrew Brust поделился информацией о текущем статусе сервиса. Он сообщил о том, что в целом HDInsight функционирует хорошо, однако все еще имеет некоторые проблемы с запросами к большим файловым хранилищам данных. По мнению Andrew Brust, это общая проблема дистрибутивов Hadoop и «Hadoop еще не готов для энтерпрайзов».

Обзор Hadoop дистрибутивов и инструментов
Если вы представитель энтерпрайза, погрязшего в гигантских массивах неструктурированных данных, и никогда не работавшего ни с одним из Hadoop дистрибутивов, наверняка вам будет полезно ознакомиться с обзором, выполненным Timothy Prickett Morgan. В своей статье “Making Hadoop Elephants Drink From Silverlake,” редактор и автор IT Jungle дает краткое описание Amazon’s Elastic MapReduce, Microsoft’s HDInsight, Google’s BigQuery, BIME’s front-end для BigQuery и Splunk. Каждое решение описано с различных углов зрения: общая архитектура, ключевые характеристики, стоимость и т.д.

Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
Компания Concurrent, известная своей популярной среди энтерпрайзов платформой для работы с большими данными, анонсировала свое партнерство с MapR Technologies, ведущим провайдером технологий Hadoop. В пресс-релизе, опубликованном 15 мая, говорится о том, что целью сделки является расширение использования Apache Hadoop среди компаний уровня энтерпрайз с помощью включения функциональности разработки MapR в Cascading framework, выпускаемого Concurrent.

Concurrent выпустила новый вычислительный движок для machine-learning приложений
21 мая, спустя 6 дней после анонсирования партнерства с  MapR Technolodgies, Concurrent объявила о запуске своего нового проекта Pattern, который работает поверх Cascading framework. Это открытый, основанный на стандартах, движок, который позволяет специалистам по анализу данных и разработчикам быстро разворачивать machine-learning приложения на Apache Hadoop. С Pattern компании могут запускать свои существующие machine-learning модели на Hadoop с использованием Predictive Model Markup Language (PMML) или через программный интерфейс.

Hadoop сыграл ведущую роль в успехе McLaren’s F1
Stuart Birrell, CIO в британской McLaren Group рассказал, как компания использует результаты обработки больших данных для разработки гоночных болидов для Formula 1: дорогостоящих автомобилей, велосипедов и даже медицинского оборудования. Проанализировав «тонны» данных за последние годы, отделы McLaren – McLaren Electronic Systems, McLaren Applied Technologies, and McLaren Racing – научились извлекать пользу из больших массивов данных с помощью Hadoop и схожих технологий. Например, каждая гоночная машина оснащена более чем 160 сенсорами, которые во время гонок генерируют гигабайты необработанных данных. Эти данные в дальнейшем используются в физических моделях и тестировании, что влечет за собой поступление новых данных. Таким образом, компания постоянно находится в центре замкнутого цикла исследований, и ее автомобили могут подвергаться модифицированию каждый день или каждый час. Команда McLaren’а уверена, что такой эволюционный путь – ключ к их успеху.

Вышла версия Hive 0.11.0
Новая версия Hive, системы хранения данных для  Hadoop, выпущена 15 мая. Основные возможности:
• Имплементация Optimized RC File, что позволяет увеличить скорость доступа к данным в Hive с помощью метаинформации
• Поддержка типа данных decimal
• Новые весовые функции: RANK, LEAD/LAG, ROW_NUMBER, FIRST_VALUE, LAST_VALUE и другие
• Различные оптимизации join’ов.

Это были тезисы основных новостей, касающихся  Hadoop, по состоянию на конец мая 2013 года. Будьте в курсе событий вместе с нашей командой!

Место солидарности беларусского ИТ-комьюнити

Далучайся!

Читайте также
По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест
По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест
По капле крови предсказывают оставшееся время жизни, дрон высасывает осиное гнездо. Техдайджест
Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark
Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark
Обработка больших данных: первые шаги в понимании Hadoop MapReduce и Spark
Big Data как концепт довольно понятна, но из-за того, что она включает в себя множество процессов, сложно сказать, с чего именно нужно начать изучение. Как хранятся файлы? Или как получать эти файлы? А может, сразу — как анализировать данные? О своём опыте работы с Big Data и почему Spark лучше, чем Hadoop MapReduce в обработке данных, рассказывает Эмилия Межекова, ETL-developer в Luxoft.
Microsoft упростит работу с данными в облаке Azure
Microsoft упростит работу с данными в облаке Azure
Microsoft упростит работу с данными в облаке Azure
Microsoft добилась рекордной выручки с 2018 года
Microsoft добилась рекордной выручки с 2018 года
Microsoft добилась рекордной выручки с 2018 года

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.