spark是什麼,就看看

Spark是一種計算框架,Spark實現的是實時查詢、批處理,流處理功能三合一,經常用它和hadoop這個生態系統進行比較。hadoop的計算框架有mapreduce,map reduce每次計算都會把中間過程存在本地hdfs上,這個比較消耗資源和拖慢進程,spark就是直接將中間計算結果存在內存,所以速度很快(?對內存消耗很大吧,能支持麼?)

Spark使用的語言是scala最佳,也支持python,Java是可以用的但卻不太推薦(不知道爲什麼)。

所以作爲數據分析員可能只需要懂得一些scala語法或者python的來支持自己能夠實現算法或者調用庫即可。


圖片來自網絡