Apache Hadoop, конечно же, доступен для скачивания на его официальной веб-странице. Однако загрузка и установка нескольких компонентов, из которых состоит кластер Hadoop, является непростой задачей. Ниже приведен список основных дистрибутивов, включая Hadoop. Это следует из опубликованной несколько дней назад статьи об экосистеме Hadoop.
Кластер Hadoop не ограничивается HDFS и Map/Reduce. Zookeeper, HBase, Hive, HCatalog, Oozie, Pig или Sqoop — все они кажутся незаменимыми, поскольку решают различные и взаимодополняющие задачи. Сегодня вы захотите предложить своим пользователям возможность использовать YARN, сохраняя при этом совместимость со старой платформой и платформой origin Map/Reduce framework. Кроме того, вам понадобятся дополнительные инструменты, такие как Ganglia и Nagios, для мониторинга и обследования вашего кластера.В этой головоломке много фрагментов. Написание сценариев для развертывания и обновления всех этих компонентов — непростая задача. Не все версии совместимы. Что еще больше усложняет задачу, стратегия управления версиями немного загадочна. Это стало немного проще, но еще не так просто. Ниже приведена диаграмма, опубликованная Cloudera в апреле 2012 года, иллюстрирующая ситуацию на тот момент.
Все это говорит о том, что рассмотрение вопроса об использовании дистрибутива для Hadoop не является эзотерическим решением.
На сегодняшний день самым старым и популярным дистрибутивом является дистрибутив Cloudera. Это хороший выбор, который я рекомендую своим клиентам. Однако на сегодняшний день я готов поспорить, что платформа данных Hortonworks со 100% открытым исходным кодом, включая Ambari, является наиболее перспективным дистрибутивом, который я лично использую на своем ноутбуке.
Другие дистрибутивы включают коммерческий MapR и InfoSphere BigInsights. В последнее время у нас появились новые дистрибутивы, такие как WANdisco Hadoop WDD, дистрибутив Intel для Hadoop и Pivotal HD от EMC Greenplum.
Наконец, стоит упомянуть устройства, в том числе Apache Hadoop:
Большая часть работы Cloudera ведется с открытым исходным кодом через Cloudera GitHub учетная запись до тех пор, пока она в конечном итоге не попадет в Apache Incubator, а затем не станет проектом Apache высшего уровня. Такие проекты, как Flume и Sqoop, являются примерами проектов Apache верхнего уровня. Cloudera Manager — единственный проект, который, насколько я могу судить, не имеет открытого исходного кода. Кроме того, несмотря на то, что Hue имеет открытый исходный код, он, похоже, ограничен дистрибутивом Cloudera, но вскоре должен быть распространен вместе с платформой Hortonworks.
Если посмотреть на то, что произошло за последние 2 года, и на то, что ожидается в ближайшие 2 года, то HortonWorks лежит в основе разработки Hadoop. Такие проекты, как YARN, HCatalog, Ambari и Tez, созданы компанией HortonWorks.
Находясь в стадии разработки Apache, Ambari имеет все шансы стать стандартом для развертывания Hadoop с использованием параллельных систем, таких как Cloudera Manager. Среди компонентов, которыми он управляет, особый интерес представляют HCatalog, Ganglia и Nagios.
Pivotal HD будет включать Project Hawq, уровень базы данных SQL, который находится поверх HDFS, а не пытается заменить его хранилищем данных NoSQL. Он использует параллельные возможности базы данных Greenplum и перерабатывает их, чтобы преобразовать распределенную файловую систему Hadoop (HDFS) в нечто, что совершенно свободно говорит на SQL.
Дистрибутив Intel является первым, который обеспечивает полное шифрование с поддержкой новых инструкций Intel® AES (Intel® AES-NI) в процессоре Intel® Xeon®. Благодаря поддержке кремниевого шифрования в распределенной файловой системе Hadoop* организации теперь могут более безопасно анализировать свои наборы данных без ущерба для производительности. Оптимизация сетевых технологий и технологий ввода-вывода на платформе процессоров Intel Xeon также обеспечивает новый уровень аналитической производительности. Анализ одного терабайта данных, на полную обработку которого ранее уходило более 4 часов, теперь может быть выполнен за 7 минут1 благодаря сочетанию аппаратного обеспечения Intel и дистрибутива Intel, позволяющего быстро обрабатывать данные.
Конфигурация стойки предварительно интегрирована с 18 узлами, которые включают InfiniBand и Ethernet-подключение. Он включает в себя дистрибутив Cloudera и версию Oracle NoSQL Database Community Edition для сбора данных.
Конфигурации сетевых хранилищ, знакомые многим пользователям. NetApp не распространены в большинстве кластеров Hadoop. Таким образом, первый Hadoopler от NetApp предварительно сконфигурирован с подключенными к серверу портами хранения данных (SAS), подключенными непосредственно к каждому узлу передачи данных. В конфигурации хранилища этого Hadoopler нет переключателя. Семантика и производительность локального диска — это то, чего сегодня ожидает каждый узел обработки данных Hadoop, и именно так настроен Hadoopler.
Общий DAS удовлетворяет неизбежные требования к увеличению емкости хранилища узлов Hadoop в кластере, размещая диски на внешней полке, совместно используемой несколькими непосредственно подключенными хостами (также называемыми вычислительными узлами Hadoop). Подключение от хоста к диску может осуществляться через SATA, SAS, SCSI или даже Ethernet, но всегда в конфигурации прямого, а не сетевого хранилища. Поэтому в Shared DAS не используется коммутатор хранилища.
NetApp поддерживает открытый дистрибутив Hadoop для Apache, который, по ее мнению, будет служить долгосрочной объединяющей силой в сообществе Hadoop и основой для долгосрочных инноваций в экосистеме больших данных в будущем. За последние несколько дней я прочитал, что EMC движется в том же направлении.