電商大數據分析平臺項目(一)項目框架

一、項目簡介

這段時間自己從網上找了一個項目課程,學着做了一個電商大數據分析平臺,不過較爲簡陋,知識作學習用。

  • 項目環境:windows10+hadoop2.7.7+hbase2.1.0+flume1.7.0+nginx+3臺linux虛擬機(三臺虛擬機搭建一個hadoop完全分佈式集羣,同將主節點配置nginx服務器)
  • 項目需求:對給定時間段內登陸過某網站的用戶進行統計分析,具體包括不同條件下新增用戶統計,用戶的地域分析,訪問深度分析等。

二、項目架構

 

三、流程講解

  1. 開發可以在web項目中內嵌的js sdk。每當用戶瀏覽到網站頁面或者觸發某種事件時,會調用js代碼,根據用戶cookie發送一個session信息這時到我們的nginx服務器中。
  2. nginx服務器在接收到發送的session後會將其寫入日誌文件中記錄下來,這時監聽日誌文件的flume會將session信息提取出來並寫入hdfs中。
  3. 編寫mapreduce程序對hdfs中的數據進行ETL,具體爲把session信息分類,解析ip,解析useragent等,將ETL後的數據寫入HBase中。(也可以寫入hdfs中,寫入hdfs中更加簡單一些,但是因爲是訓練項目,所以想把所有組件用一下,所以就寫入HBase中了)
  4. 將HBase中的數據再提取出來,編寫mapreduce進行進一步處理,即項目中的核心步驟,對這些用戶信息進行分析,統計等,將結果信息寫入mysql中。