大數據項目:新聞日誌大數據處理系統

Big-Data-Project

Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echartsmysql

項目名稱:新聞日誌大數據處理系統

項目簡介

github開源
源碼:https://github.com/changeforeda/Big-Data-Project
目標linux

一、完成大數據項目的架構設計,安裝部署,架構繼承與開發、用戶可視化交互設計git

二、完成實時在線數據分析github

三、完成離線數據分析web

具體功能sql

1)捕獲用戶瀏覽日誌信息windows

2)實時分析前20名流量最高的新聞話題centos

3)實時統計當前線上已曝光的新聞話題架構

4)統計哪一個時段用戶瀏覽量最高ssh

5)報表

項目技術點

Hadoop2.x、Zookeeper、Flume、Hive、Hbase

Kafka、Spark2.x、SparkStreaming

MySQL、Hue、J2EE、websoket、Echarts

開發工具

虛擬機: VMware、centos

虛擬機ssh: SecureCRT(在windows上連接多個虛擬機)

修改源碼:idea

查看各類數據:notepad++(安裝NppFTP插件,修改虛擬機中配置文件,好用的一批)

項目架構

圖片來自於卡夫卡公司

集羣資源規劃

利用VMware虛擬機+centos完成,基本要求筆記本電腦內存在8G以上。
最低要去克隆出3臺虛擬機,每臺給2G內存。

項目實現步驟

一、第一章:項目需求分析與設計

二、第二章:linux環境準備與設置

三、第三章:Hadoop2.X分佈式集羣部署

四、第四章:Zookeeper分佈式集羣部署

五、第五章:hadoop的高可用配置(HA)

六、第六章:hadoop的HA下的高可用HBase部署

七、第七章:Kafka簡介和分佈式部署

八、第八章:Flume簡介和分佈式部署

九、第九章:Flume源碼修改與HBase+Kafka集成

十、第十章:Flume+HBase+Kafka集成全流程測試

十一、第十一章:mysql、Hive安裝與集成

十二、第十二章:Hive與Hbase集成

1三、第十三章:Cloudera HUE大數據可視化分析

1四、第十四章:Spark2.X集羣安裝與spark on yarn部署

1五、第十五章:基於IDEA環境下的Spark2.X程序開發

1六、第十六章:Spark Streaming實時數據處理