Hadoop的發展史: html
生態圈圖解: 數據庫
MapReduce:分佈式數據處理模型和執行環境、運行於大型商用機集羣。機器學習
ZooKeeper:一個分佈式、高可用的協調服務。ZooKeeper提供分佈式鎖之類的基本服務用於構建分佈式應用。分佈式
HDFS: 分佈式文件系統,運行於大型商用機集羣。 Hadoop體系最底層的一個模塊。爲Hadoop各子項目提供各類工具,如:配置文件和日誌操做等。工具
HBase: 一個分佈式、按列存儲的數據庫。HBase 使用 HDFS做爲底層存儲,同時支持 MapReduce 的批量式計算和點查詢(隨機讀取)。oop
Pig:一種數據流語言和運行環境,用以檢索很是大的數據集。Pig 運行在MapReduce 和 HDFS 的集羣上。學習
Hive:一個分佈式、按列存儲的數據倉庫。 Hive 管理 HDFS中存儲的數據,並提供基於 SQL 的查詢語言(由運行時引擎翻譯成 MapReduce做業)用以查詢數據。大數據
Avro:支持高效、跨語言的 RPC以及永久存儲數據的序列化實現,主要負責數據的序列化。翻譯
Mahout:一個可擴展的機器學習和數據挖掘日誌
大數據必備的一些數據處理技術: