大數據分析的四個關鍵環節

時間 2021-01-07 標籤數據分析大數據指標數據採集數據建模

▌ 什麼是大數據？

隨着大數據時代的到來，AI 概念的火熱，人們的認知有所提高。爲什麼說大數據有價值？這是不是隻是一個虛的概念？大家怎麼考慮數據驅動問題？爲什麼掌握更多的數據就會更有效？這些問題很難回答，但是，大數據絕不是大而空洞的。

信息論之父香農曾表示，信息是用來消除不信任的東西，比如預測明天會不會下雨，如果知道了今天的天氣、風速、雲層、氣壓等信息，有助於得出更準確的結論。所以大數據是用來消除不確定性的，掌握更多的有效數據，可以驅動企業進行科學客觀的決策。

桑文鋒對大數據有着自己的理解，數據採集遵循「大」、「全」、「細」、「時」四字法則。

「大」強調宏觀的「大」，而非物理的「大」。大數據不是一味追求數據量的「大」。比如每天各地級市的蘋果價格數據統計只有 2MB，但基於此研發出一款蘋果智能調度系統，就是一個大數據應用，而有些數據雖然很大，卻價值有限；

「全」強調多種數據源。大數據採集講求全量，而不是抽樣。除了採集客戶端數據，還需採集服務端日誌、業務數據庫，以及第三方服務等數據，全面覆蓋，比如美國大選前的民意調查，希拉里有70%以上勝算，但是川普成爲了美國總統，因爲採樣數據有偏差，支持川普的底層人民不會上網回覆。

「細」強調多維度數據採集，即把事件的維度、屬性、字段等都進行採集。如電商行業「加入購物車」的事件，除了採集用戶的 click 數據，還應採集用戶點擊的是哪個商品、對應的商戶等數據，方便後續交叉分析。

「時」強調數據的時效性。顯然，具有時效性的數據纔有參考價值。如國家指數，CPI 指數，月初收集到信息和月中拿到信息，價值顯然不同，數據需要實時拿到，實時分析。

從另一個視角看待數據的價值，可以分爲兩點，數據驅動決策，數據驅動產品智能。數據的最大價值是產品智能，有了數據基礎，再搭建好策略算法，去回灌產品，提升產品本身的學習能力，可以不斷迭代。如今日頭條的新聞推薦，百度搜索的搜索引擎優化，都是數據驅動產品智能的體現。

▌ 數據分析四個關鍵環節

桑文鋒把數據分析分爲四個環節，數據採集、數據建模、數據分析、指標。他提出了一個觀點，要想做好數據分析，一定要有自底向上的理念。很多公司的數據分析自頂向下推動，用業務分析指標來決定收集什麼數據，這是需求驅動工程師的模式，不利於公司長久的數據採集。而一個健康的自底向上模式，可以幫助公司真正建立符合自己業務的數據流和數據分析體系。

一、數據採集

想要真正做好大數據分析，首先要把數據基礎建好，核心就是「全」和「細」。

蒐集數據時不能只通過 APP 或客戶端收集數據，服務器的數據、數據庫數據都要同時收集打通，收集全量數據，而非抽樣數據，同時還要記錄相關維度，否則分析業務時可能會發現歷史數據不夠，所以不要在意數據量過大，磁盤存儲的成本相比數據積累的價值，非常廉價。

常見的數據採集方式歸結爲三類，可視化/全埋點、代碼埋點、數據導入工具。

第一種是可視化/全埋點，這種方式不需要工程師做太多配合，產品經理、運營經理想做分析直接在界面點選，系統把數據收集起來，比較靈活。但是也有不好的地方，有許多維度信息會丟失，數據不夠精準。

第二種是代碼埋點，代碼埋點不特指前端埋點，後端服務器數據模塊、日誌，這些深層次的都可以代碼埋點，比如電商行業中交易相關的數據可以在後端採集。代碼埋點的優勢是，數據更加準確，通過前端去採集數據，常會發現數據對不上，跟自己的實際後臺數據差異非常大。可能有三個原因：第一個原因是本身統計口徑不一樣，一定出現丟失；第二點是流量過大，導致數據丟失異常；第三點是SDK兼容，某些客戶的某些設備數據發不出去，導致數據不對稱。而代碼埋點的後臺是公司自己的服務器，自己核心的模擬可以做校準，基本進行更準確的數據採集。

第三種是通過導入輔助工具，將後臺生成的日誌、數據表、線下數據用實時批量方式灌到裏面，這是一個很強的耦合。

數據採集需要採集數據和分析數據的人共同參與進來，分析數據的人明確業務指標，並且對於數據的準確性有敏感的判斷力，採集數據的人再結合業務進行系統性的採集。

二、數據建模

很多公司都有業務數據庫，裏面存放着用戶註冊信息、交易信息等，然後產品經理、運營人員向技術人員尋求幫助，用業務數據庫支持業務上的數據分析。但是這樣維護成本很高，且幾千萬、幾億條數據不能很好地操作。所以，數據分析和正常業務運轉有兩項分析，數據分析單獨建模、單獨解決問題。

數據建模有兩大標準：易理解和性能好。

數據驅動不是數據分析師、數據庫管理員的專利，讓公司每一個業務人員都能在工作中運用數據進行數據分析，並能在獲得秒級響應，驗證自己的新點子新思維，嘗試新方法，纔是全員數據驅動的健康狀態。

多維數據分析模型（OLAP）是用戶數據分析中最有效的模型，它把用戶的訪問數據都歸類爲維度和指標，城市是維度，操作系統也是維度，銷售額、用戶量是指標。建立好多維數據分析模型，解決的不是某個業務指標分析的問題，使用者可以靈活組合，滿足各種需求。

三、數據分析

數據分析支持產品改進

產品經理在改進產品功能時，往往是拍腦袋靈光一現，再對初級的點子進行再加工，這是不科學的。《精益創業》中講過一個理念，把數據分析引入產品迭代，對已有的功能進行數據採集和數據分析，得出有用的結論引入下一輪迭代，從而改進產品。在這個過程中大數據分析很關鍵。

Facebook 的創始人曾經介紹過他的公司如何確定產品改進方向。Facebook 採用了一種機制：每一個員工如果有一個點子，可以抽樣幾十萬用戶進行嘗試，如果結果不行，就放棄這個點子，如果這個效果非常好，就推廣到更大範圍。這是把數據分析引入產品迭代的科學方法。

桑文鋒在 2007 年加入百度時，也發現了一個現象，他打開郵箱會收到幾十封報表，將百度知道的訪問量、提問量、回答量等一一介紹。當百度的產品經理提出一個需求時，工程師會從數據的角度提出疑問，這個功能爲什麼好？有什麼數據支撐？這個功能上線時如何評估？有什麼預期數據？這也是一種數據驅動產品的體現。

數據驅動運營監控

運營監控通常使用海盜模型，所謂的運營就是五件事：觸達是怎麼吸引用戶過來；然後激活用戶，讓用戶真正變成有效的用戶；然後留存，提高用戶粘性，讓用戶能停留在你的產品中不斷使用；接下來是引薦，獲取用戶這麼困難，能不能發動已有的用戶，讓已有用戶帶來新用戶，實現自傳播；最後是營收，做產品最終要賺錢。要用數據分析，讓運營做的更好。

數據分析方法

互聯網常見分析方法有幾種，多維分析、漏斗分析、留存分析、用戶路徑、用戶分羣、點擊分析等等，不同的數據分析方法適用於不同的業務場景，需要自主選擇。

舉個多維分析的例子，神策數據有一個視頻行業的客戶叫做開眼，他們的軟件有一個下載頁面，運營人員曾經發現他們的安卓 APP 下載量遠低於 iOS，這是不合理的。他們考慮過是不是 iOS 用戶更願意看視頻，隨後從多個維度進行了分析，否定了這個結論，當他們發現某些安卓版本的下載量爲零，分析到屏幕寬高時，看出這個版本下載按鈕顯示不出來，所以下載比例非常低。就這樣通過多維分析，找出了產品改進點。

舉個漏斗分析的例子，神策數據的官網訪問量很高，但是註冊-登錄用戶的轉化率很低，需要進行改進。所以大家就思考如何把轉化漏斗激活地更好，後來神策做了小的改變，在提交申請試用後加了一個查看登錄頁面，這樣用戶收到賬戶名密碼後可以隨手登錄，優化了用戶體驗，轉化率也有了可觀的提升。

四、指標

如何定義指標？對於創業公司來說，有兩種方法非常有效：第一關鍵指標法和海盜指標法。

第一關鍵指標法是《精益數據分析》中提出的理論，任何一個產品在某個階段，都有一個最需要關注的指標，其他指標都是這個指標的衍生，這個指標決定了公司當前的工作重點，對一個初創公司來說，可能開始關注日活，圍繞日活又擴展了一些指標，當公司的產品成熟後，變現就會成爲關鍵，淨收入（GMV）會變成第一關鍵指標。

更多數據分析乾貨和案例，可以關注「神策數據」公衆號瞭解~

想了解神策數據產品，可以點擊體驗 Demo 試用~