Hadoop

Центральный проект Apache по разработке открытого ПО для надежных, масштабируемых, распределенных вычислений.

hadoop.apache.org

HDFS

Распределенная файловая система, которая обеспечивает высокоскоростной доступ до данных ваших приложений.

hadoop.apache.org/hdfs/

MapReduce

Фреймворк для создания распределенных обработчиков данных на основе кластера.

ZooKeeper

Координационный сервис для распределенных приложений. Применяется для поддержки информации о конфигурации, обеспечение синхронизации, naming сервисов.

hadoop.apache.org/zookeeper/

HBase

Масштабируемая, распределенная база данных.

hbase.apache.org

Avro

Система для быстрой сериализации данны. Аналогична проектам Thrift и Protocol Buffers.

avro.apache.org

Sqoop

Sqoop (“SQL-to-Hadoop”) - утилита для командной строки позволяющая следующее:

  • Импортирование данных (отдельные таблицы или целые базы данных) в HDFS
  • Генерирование Java классов для взаимодействия с импортированными данными
  • Обеспечивает возможность импорта из SQL БД непосредственно в Hive

cloudera.com/downloads/sqoop/

Flume

Flume  - распределенный и надежный сервис для эффективного перемещения больших объемов данных после их обработки.

archive.cloudera.com/cdh/3/flume/

Hive

Hive - инфраструктура для обеспечения хранения данных. Построена на основе Hadoop. Обеспечивает механизмы структурирования, а так же язык запросов, называемый Hive QL, который основан на SQL и позволяет сходным образом обращаться к данным. В тоже время данных язык позволяет программистам использовать традиционную технику map/reduce для более сложного и глубокого анализа данных.

hive.apache.org

Pig

Высокоуровневый язык и фреймворк для распределенных вычислений. Очень хорошо подходит для быстрого анализа больших объемов информации еще на стадии проектирования системы.

pig.apache.org

Oozie

Oozie  - оркестратор потока работ для Apache Hadoop. Расширяемый, масштабируемый сервис для управления заданиями в кластере Hadoop (включая HDFS, Pig, MapReduce и другие).

yahoo.github.com/oozie

Cascading

Cascading  - язык и планировщик запросов для определения и выполнения сложных, масштабируемых задач на Hadoop кластере.

cascading.org

Cascalog

Cascalog - аналог для Pig, Hive и Cascading. Позволяет запрашивать/анализировать данные в кластере Hadoop с помощью Clojure.

github.com/nathanmarz/cascalog

HUE

Hue  - графический пользовательский интерфейс для управления и разработке приложений для Hadoop.

archive.cloudera.com/cdh3/hue

Прочитать подробнее Вы можете в блоге Cloudera.

Chukwa

Chukwa - система сбора данныз для мониторинга больших распределеннх систем. Построена на основе Hadoop Distributed File System (HDFS) и Map/Reduce фреймворка и унаследовала масштабируемость и отказоустойчивость Hadoop. Chukwa так же включает гибкий и мощный набор утилит для отображения и анализа полученных данных.

incubator.apache.org/chukwa/

Mahout

Библиотека для  организации распределенного машинного обучения и анализа данных.

mahout.apache.org