Hadoop生態圈總結——大數據

時間 2019-12-07 標籤 hadoop 生態圈總結大數據

Hadoop的發展史： html

生態圈圖解： 數據庫

MapReduce:分佈式數據處理模型和執行環境、運行於大型商用機集羣。機器學習

ZooKeeper:一個分佈式、高可用的協調服務。ZooKeeper提供分佈式鎖之類的基本服務用於構建分佈式應用。分佈式

HDFS: 分佈式文件系統,運行於大型商用機集羣。 Hadoop體系最底層的一個模塊。爲Hadoop各子項目提供各類工具,如:配置文件和日誌操做等。工具

HBase: 一個分佈式、按列存儲的數據庫。HBase 使用 HDFS做爲底層存儲,同時支持 MapReduce 的批量式計算和點查詢(隨機讀取)。oop

Pig:一種數據流語言和運行環境,用以檢索很是大的數據集。Pig 運行在MapReduce 和 HDFS 的集羣上。學習

Hive:一個分佈式、按列存儲的數據倉庫。 Hive 管理 HDFS中存儲的數據,並提供基於 SQL 的查詢語言(由運行時引擎翻譯成 MapReduce做業)用以查詢數據。大數據

Avro:支持高效、跨語言的 RPC以及永久存儲數據的序列化實現,主要負責數據的序列化。翻譯

Mahout:一個可擴展的機器學習和數據挖掘日誌

大數據必備的一些數據處理技術：