Hadoop
Центральный проект Apache по разработке открытого ПО для надежных, масштабируемых, распределенных вычислений.
HDFS
Распределенная файловая система, которая обеспечивает высокоскоростной доступ до данных ваших приложений.
MapReduce
Фреймворк для создания распределенных обработчиков данных на основе кластера.
ZooKeeper
Координационный сервис для распределенных приложений. Применяется для поддержки информации о конфигурации, обеспечение синхронизации, naming сервисов.
HBase
Масштабируемая, распределенная база данных.
Avro
Система для быстрой сериализации данны. Аналогична проектам Thrift и Protocol Buffers.
Sqoop
Sqoop (“SQL-to-Hadoop”) - утилита для командной строки позволяющая следующее:
- Импортирование данных (отдельные таблицы или целые базы данных) в HDFS
- Генерирование Java классов для взаимодействия с импортированными данными
- Обеспечивает возможность импорта из SQL БД непосредственно в Hive
Flume
Flume - распределенный и надежный сервис для эффективного перемещения больших объемов данных после их обработки.
archive.cloudera.com/cdh/3/flume/
Hive
Hive - инфраструктура для обеспечения хранения данных. Построена на основе Hadoop. Обеспечивает механизмы структурирования, а так же язык запросов, называемый Hive QL, который основан на SQL и позволяет сходным образом обращаться к данным. В тоже время данных язык позволяет программистам использовать традиционную технику map/reduce для более сложного и глубокого анализа данных.
Pig
Высокоуровневый язык и фреймворк для распределенных вычислений. Очень хорошо подходит для быстрого анализа больших объемов информации еще на стадии проектирования системы.
Oozie
Oozie - оркестратор потока работ для Apache Hadoop. Расширяемый, масштабируемый сервис для управления заданиями в кластере Hadoop (включая HDFS, Pig, MapReduce и другие).
Cascading
Cascading - язык и планировщик запросов для определения и выполнения сложных, масштабируемых задач на Hadoop кластере.
Cascalog
Cascalog - аналог для Pig, Hive и Cascading. Позволяет запрашивать/анализировать данные в кластере Hadoop с помощью Clojure.
github.com/nathanmarz/cascalog
HUE
Hue - графический пользовательский интерфейс для управления и разработке приложений для Hadoop.
Прочитать подробнее Вы можете в блоге Cloudera.
Chukwa
Chukwa - система сбора данныз для мониторинга больших распределеннх систем. Построена на основе Hadoop Distributed File System (HDFS) и Map/Reduce фреймворка и унаследовала масштабируемость и отказоустойчивость Hadoop. Chukwa так же включает гибкий и мощный набор утилит для отображения и анализа полученных данных.
Mahout
Библиотека для организации распределенного машинного обучения и анализа данных.
Google+