Отдел новостей 11 июня 2013, 16:50

Обзор основных событий в мире Hadoop в мае 2013

В данной статье мы собрали самые интересные события, произошедшие в мире Hadoop в мае 2013. Отчет подготовлен R&D департаментом Altoros.

В этом обзоре:
• 75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
• Cloudera Development Kit: новый SDK для Hadoop-разработчиков
• Обзор Hadoop в трех статьях
• HDInsight может быть выпущен уже этим летом
• Обзор Hadoop дистрибутивов и инструментов
• Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
• Concurrent выпустила новый вычислительный движок для machine-learning приложений
• Hadoop сыграл ведущую роль в успехе McLaren’s F1
• Вышла версия Hive 0.11.0

75% компаний уровня энтерпрайз используют Hadoop для хранения данных и ETL
В статье “Hadoop Adoption Accelerates, But Not For Data Analytics,” Matt Asay из 10gen, компании, разрабатывающей MongoDB, обращает внимание на одно важное противоречие. В то время как Hadoop широко известен как мощный инструмент для аналитики и вычислений, в реальности более 75% компаний уровня энтерпрайз используют его как хранилище данных и для ETL-операций (Extract, Transform, and Load). Тем не менее, это не говорит о том, что возможности Hadoop некорректно использовались ранее или используются сейчас. Данный факт свидетельствует о существующем положении дел на рынке. Asay также приводит доклад Matt Aslett, озвученный на Hadoop Summit в марте. Aslett считает, что переход в использовании Hadoop от хранилищ данных до аналитики в перспективе – естественный процесс. Таким образом, переход компаний, которые в настоящий момент занимаются лишь сбором данных, к тому, чтобы начать использовать все «невостребованные» возможности Hadoop – это лишь вопрос времени.

Cloudera Development Kit: новый SDK для Hadoop-разработчиков
Cloudera – провайдер ПО и сервисов, основанных на Hadoop – анонсировала Cloudera Development Kit (CDK). Это открытый проект, ориентированный на программистов, которые разрабатывают приложения, используя CDH – главный дистрибутив Hadoop, выпускаемый компанией. Проект представляет собой главным образом коллекцию библиотек, инструментов, примеров и документации – все это призвано упростить наиболее частые задачи, с которыми сталкиваются разработчики при использовании CDH-платформы. Первый релиз (версия 0.2.0) – это модуль CDK-data, которой включает в себя API для различных операций с хранилищами данных в Hadoop. Тем не менее, Cloudera заявляет, что фреймворк будет расширяться за счет включения компонентов для выполнения различных сценариев использования Hadoop. Будучи хорошо структурированным, документированным и открытым, SDK сможет соответствовать требованиям большинства разработчиков.

Обзор Hadoop в трех статьях
Jonathan Gershater выпустил серию статей, рассказывающих об основных положениях работы Hadoop и обработке больших данных. В первой статье он описывает вопросы, связанные с аналитикой огромных объемов данных, объясняет, как применяется в данном случае подход MapReduce и представляет Hadoop в качестве одного из инструментов для решения такого рода задач. Следующая статья углубляется в структуру Hadoop и базовую терминологию (такую как DataNode, Job, HDFS). Автор также вкратце перечисляет сопутствующие проекты: Apache Pig, Apache Hive, HBase, Mahout и т.д. Третья статья фокусируется на центральных компонентах Hadoop и итерации между ними. Она объясняет преимущества файловой системы HDFS перед NTFS и описывает сущность модели MapReduce, в том числе, как она реализуется внутри Hadoop с помощью job’ов.

HDInsight может быть выпущен уже этим летом
HDInsight – платформа Hadoop, разработанная Microsoft на базе Windows Azure. С марта 2013 она находилась в статусе beta и “almost ready for prime time.” Новость о возможном релизе была озвучена Andrew Brust, исполнительным директором компании Blue Badge Insights, которая предоставляет стратегические и консалтинговые услуги клиентам и партнерам Microsoft. Во время сессии Visual Studio Live! в Чикаго Andrew Brust поделился информацией о текущем статусе сервиса. Он сообщил о том, что в целом HDInsight функционирует хорошо, однако все еще имеет некоторые проблемы с запросами к большим файловым хранилищам данных. По мнению Andrew Brust, это общая проблема дистрибутивов Hadoop и «Hadoop еще не готов для энтерпрайзов».

Обзор Hadoop дистрибутивов и инструментов
Если вы представитель энтерпрайза, погрязшего в гигантских массивах неструктурированных данных, и никогда не работавшего ни с одним из Hadoop дистрибутивов, наверняка вам будет полезно ознакомиться с обзором, выполненным Timothy Prickett Morgan. В своей статье “Making Hadoop Elephants Drink From Silverlake,” редактор и автор IT Jungle дает краткое описание Amazon’s Elastic MapReduce, Microsoft’s HDInsight, Google’s BigQuery, BIME’s front-end для BigQuery и Splunk. Каждое решение описано с различных углов зрения: общая архитектура, ключевые характеристики, стоимость и т.д.

Concurrent заключила партнерское соглашение с компанией MapR Technolodgies
Компания Concurrent, известная своей популярной среди энтерпрайзов платформой для работы с большими данными, анонсировала свое партнерство с MapR Technologies, ведущим провайдером технологий Hadoop. В пресс-релизе, опубликованном 15 мая, говорится о том, что целью сделки является расширение использования Apache Hadoop среди компаний уровня энтерпрайз с помощью включения функциональности разработки MapR в Cascading framework, выпускаемого Concurrent.

Concurrent выпустила новый вычислительный движок для machine-learning приложений
21 мая, спустя 6 дней после анонсирования партнерства с MapR Technolodgies, Concurrent объявила о запуске своего нового проекта Pattern, который работает поверх Cascading framework. Это открытый, основанный на стандартах, движок, который позволяет специалистам по анализу данных и разработчикам быстро разворачивать machine-learning приложения на Apache Hadoop. С Pattern компании могут запускать свои существующие machine-learning модели на Hadoop с использованием Predictive Model Markup Language (PMML) или через программный интерфейс.

Hadoop сыграл ведущую роль в успехе McLaren’s F1
Stuart Birrell, CIO в британской McLaren Group рассказал, как компания использует результаты обработки больших данных для разработки гоночных болидов для Formula 1: дорогостоящих автомобилей, велосипедов и даже медицинского оборудования. Проанализировав «тонны» данных за последние годы, отделы McLaren – McLaren Electronic Systems, McLaren Applied Technologies, and McLaren Racing – научились извлекать пользу из больших массивов данных с помощью Hadoop и схожих технологий. Например, каждая гоночная машина оснащена более чем 160 сенсорами, которые во время гонок генерируют гигабайты необработанных данных. Эти данные в дальнейшем используются в физических моделях и тестировании, что влечет за собой поступление новых данных. Таким образом, компания постоянно находится в центре замкнутого цикла исследований, и ее автомобили могут подвергаться модифицированию каждый день или каждый час. Команда McLaren’а уверена, что такой эволюционный путь – ключ к их успеху.

Вышла версия Hive 0.11.0
Новая версия Hive, системы хранения данных для Hadoop, выпущена 15 мая. Основные возможности:
• Имплементация Optimized RC File, что позволяет увеличить скорость доступа к данным в Hive с помощью метаинформации
• Поддержка типа данных decimal
• Новые весовые функции: RANK, LEAD/LAG, ROW_NUMBER, FIRST_VALUE, LAST_VALUE и другие
• Различные оптимизации join’ов.

Это были тезисы основных новостей, касающихся Hadoop, по состоянию на конец мая 2013 года. Будьте в курсе событий вместе с нашей командой!

Оставить комментарий

Текст: Отдел новостей Теги: azure, altoros development, hadoop, big data, cloudera, hive, mapr

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Как подключить DeepSeek на Azure? Пошаговая инструкция от фаундера стартапа

Чтобы запустить DeepSeek R1 AI на своих серверах, не нужно быть DevOps. Я подготовил пошаговую инструкцию, которая показывает, как развернуть свою личную копию одного из топовых ИИ. Причем сделать это можно даже бесплатно. Важно: благодаря этой инструкции все данные остаются под контролем не китайской компании, а пользователя и Microsoft.

2 комментария

«Python для всех»: Профессиональная сeртификация, чтобы стартануть в Big Data

Специализация Мичиганского университета «Python для всех» — отличный старт для тех, кто хочет начать работать с данными. Рассказываем о курсе, где вы получите знания, необходимые в Big Data.

Как свитчнуться в Big Data. Эксперт поделился free roadmap для тех, кто уже в IT

Профессии, связанные с большими данными, становятся все более востребоваными, а среди специалистов тут меньше конкуренции, чем во фронтенде или тестировании. Разбираемся, как войти в Data Engineering, Data Science и Data Analytics.

В облачном подразделении Microsoft увольняют несколько сотен человек

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.

Войдите, чтобы оставить комментарий