大數據項目：新聞日誌大數據處理系統

時間 2020-08-17 標籤大數據項目新聞日誌大數據處理系統

Big-Data-Project

Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echartsmysql

github開源
源碼：https://github.com/changeforeda/Big-Data-Project
目標linux

一、完成大數據項目的架構設計，安裝部署，架構繼承與開發、用戶可視化交互設計git

二、完成實時在線數據分析github

三、完成離線數據分析web

具體功能sql

1）捕獲用戶瀏覽日誌信息windows

2）實時分析前20名流量最高的新聞話題centos

3）實時統計當前線上已曝光的新聞話題架構

4）統計哪一個時段用戶瀏覽量最高ssh

5）報表

Hadoop2.x、Zookeeper、Flume、Hive、Hbase

Kafka、Spark2.x、SparkStreaming

MySQL、Hue、J2EE、websoket、Echarts

虛擬機： VMware、centos

虛擬機ssh: SecureCRT（在windows上連接多個虛擬機）

修改源碼：idea

查看各類數據：notepad++（安裝NppFTP插件，修改虛擬機中配置文件，好用的一批）

圖片來自於卡夫卡公司

利用VMware虛擬機+centos完成，基本要求筆記本電腦內存在8G以上。
最低要去克隆出3臺虛擬機，每臺給2G內存。

一、第一章：項目需求分析與設計

二、第二章：linux環境準備與設置

三、第三章：Hadoop2.X分佈式集羣部署

四、第四章：Zookeeper分佈式集羣部署

五、第五章：hadoop的高可用配置（HA）

六、第六章：hadoop的HA下的高可用HBase部署

七、第七章：Kafka簡介和分佈式部署

八、第八章：Flume簡介和分佈式部署

九、第九章：Flume源碼修改與HBase+Kafka集成

十、第十章：Flume+HBase+Kafka集成全流程測試

十一、第十一章：mysql、Hive安裝與集成

十二、第十二章：Hive與Hbase集成

1三、第十三章：Cloudera HUE大數據可視化分析

1四、第十四章：Spark2.X集羣安裝與spark on yarn部署

1五、第十五章：基於IDEA環境下的Spark2.X程序開發

1六、第十六章：Spark Streaming實時數據處理