Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echartsmysql
github開源
源碼:https://github.com/changeforeda/Big-Data-Project
目標linux
一、完成大數據項目的架構設計,安裝部署,架構繼承與開發、用戶可視化交互設計git
二、完成實時在線數據分析github
三、完成離線數據分析web
具體功能sql
1)捕獲用戶瀏覽日誌信息windows
2)實時分析前20名流量最高的新聞話題centos
3)實時統計當前線上已曝光的新聞話題架構
4)統計哪一個時段用戶瀏覽量最高ssh
5)報表
Hadoop2.x、Zookeeper、Flume、Hive、Hbase
Kafka、Spark2.x、SparkStreaming
MySQL、Hue、J2EE、websoket、Echarts
虛擬機: VMware、centos
虛擬機ssh: SecureCRT(在windows上連接多個虛擬機)
修改源碼:idea
查看各類數據:notepad++(安裝NppFTP插件,修改虛擬機中配置文件,好用的一批)
圖片來自於卡夫卡公司
利用VMware虛擬機+centos完成,基本要求筆記本電腦內存在8G以上。
最低要去克隆出3臺虛擬機,每臺給2G內存。
一、第一章:項目需求分析與設計
二、第二章:linux環境準備與設置
三、第三章:Hadoop2.X分佈式集羣部署
四、第四章:Zookeeper分佈式集羣部署
五、第五章:hadoop的高可用配置(HA)
六、第六章:hadoop的HA下的高可用HBase部署
七、第七章:Kafka簡介和分佈式部署
八、第八章:Flume簡介和分佈式部署
九、第九章:Flume源碼修改與HBase+Kafka集成
十、第十章:Flume+HBase+Kafka集成全流程測試
十一、第十一章:mysql、Hive安裝與集成
十二、第十二章:Hive與Hbase集成
1三、第十三章:Cloudera HUE大數據可視化分析
1四、第十四章:Spark2.X集羣安裝與spark on yarn部署
1五、第十五章:基於IDEA環境下的Spark2.X程序開發
1六、第十六章:Spark Streaming實時數據處理