大數據分析的四個關鍵環節


▌ 什麼是大數據?

隨着大數據時代的到來,AI 概念的火熱,人們的認知有所提高。爲什麼說大數據有價值?這是不是隻是一個虛的概念?大家怎麼考慮數據驅動問題?爲什麼掌握更多的數據就會更有效?這些問題很難回答,但是,大數據絕不是大而空洞的。

信息論之父香農曾表示,信息是用來消除不信任的東西,比如預測明天會不會下雨,如果知道了今天的天氣、風速、雲層、氣壓等信息,有助於得出更準確的結論。所以大數據是用來消除不確定性的,掌握更多的有效數據,可以驅動企業進行科學客觀的決策。

桑文鋒對大數據有着自己的理解,數據採集遵循「大」、「全」、「細」、「時」四字法則。

「大」強調宏觀的「大」,而非物理的「大」。大數據不是一味追求數據量的「大」。比如每天各地級市的蘋果價格數據統計只有 2MB,但基於此研發出一款蘋果智能調度系統,就是一個大數據應用,而有些數據雖然很大,卻價值有限;

「全」強調多種數據源。大數據採集講求全量,而不是抽樣。除了採集客戶端數據,還需採集服務端日誌、業務數據庫,以及第三方服務等數據,全面覆蓋,比如美國大選前的民意調查,希拉里有70%以上勝算,但是川普成爲了美國總統,因爲採樣數據有偏差,支持川普的底層人民不會上網回覆。

「細」強調多維度數據採集,即把事件的維度、屬性、字段等都進行採集。如電商行業「加入購物車」的事件,除了採集用戶的 click 數據,還應採集用戶點擊的是哪個商品、對應的商戶等數據,方便後續交叉分析。

「時」強調數據的時效性。顯然,具有時效性的數據纔有參考價值。如國家指數,CPI 指數,月初收集到信息和月中拿到信息,價值顯然不同,數據需要實時拿到,實時分析。

從另一個視角看待數據的價值,可以分爲兩點,數據驅動決策,數據驅動產品智能。數據的最大價值是產品智能,有了數據基礎,再搭建好策略算法,去回灌產品,提升產品本身的學習能力,可以不斷迭代。如今日頭條的新聞推薦,百度搜索的搜索引擎優化,都是數據驅動產品智能的體現。

▌ 數據分析四個關鍵環節

桑文鋒把數據分析分爲四個環節,數據採集、數據建模、數據分析、指標。他提出了一個觀點,要想做好數據分析,一定要有自底向上的理念。很多公司的數據分析自頂向下推動,用業務分析指標來決定收集什麼數據,這是需求驅動工程師的模式,不利於公司長久的數據採集。而一個健康的自底向上模式,可以幫助公司真正建立符合自己業務的數據流和數據分析體系。

一、數據採集

想要真正做好大數據分析,首先要把數據基礎建好,核心就是「全」和「細」。

蒐集數據時不能只通過 APP 或客戶端收集數據,服務器的數據、數據庫數據都要同時收集打通,收集全量數據,而非抽樣數據,同時還要記錄相關維度,否則分析業務時可能會發現歷史數據不夠,所以不要在意數據量過大,磁盤存儲的成本相比數據積累的價值,非常廉價。

常見的數據採集方式歸結爲三類,可視化/全埋點、代碼埋點、數據導入工具。

第一種是可視化/全埋點,這種方式不需要工程師做太多配合,產品經理、運營經理想做分析直接在界面點選,系統把數據收集起來,比較靈活。但是也有不好的地方,有許多維度信息會丟失,數據不夠精準。

第二種是代碼埋點,代碼埋點不特指前端埋點,後端服務器數據模塊、日誌,這些深層次的都可以代碼埋點,比如電商行業中交易相關的數據可以在後端採集。代碼埋點的優勢是,數據更加準確,通過前端去採集數據,常會發現數據對不上,跟自己的實際後臺數據差異非常大。可能有三個原因:第一個原因是本身統計口徑不一樣,一定出現丟失;第二點是流量過大,導致數據丟失異常;第三點是SDK兼容,某些客戶的某些設備數據發不出去,導致數據不對稱。而代碼埋點的後臺是公司自己的服務器,自己核心的模擬可以做校準,基本進行更準確的數據採集。

第三種是通過導入輔助工具,將後臺生成的日誌、數據表、線下數據用實時批量方式灌到裏面,這是一個很強的耦合。

數據採集需要採集數據和分析數據的人共同參與進來,分析數據的人明確業務指標,並且對於數據的準確性有敏感的判斷力,採集數據的人再結合業務進行系統性的採集。

二、數據建模

很多公司都有業務數據庫,裏面存放着用戶註冊信息、交易信息等,然後產品經理、運營人員向技術人員尋求幫助,用業務數據庫支持業務上的數據分析。但是這樣維護成本很高,且幾千萬、幾億條數據不能很好地操作。所以,數據分析和正常業務運轉有兩項分析,數據分析單獨建模、單獨解決問題。

數據建模有兩大標準:易理解和性能好。

數據驅動不是數據分析師、數據庫管理員的專利,讓公司每一個業務人員都能在工作中運用數據進行數據分析,並能在獲得秒級響應,驗證自己的新點子新思維,嘗試新方法,纔是全員數據驅動的健康狀態。

多維數據分析模型(OLAP)是用戶數據分析中最有效的模型,它把用戶的訪問數據都歸類爲維度和指標,城市是維度,操作系統也是維度,銷售額、用戶量是指標。建立好多維數據分析模型,解決的不是某個業務指標分析的問題,使用者可以靈活組合,滿足各種需求。

三、數據分析

數據分析支持產品改進

產品經理在改進產品功能時,往往是拍腦袋靈光一現,再對初級的點子進行再加工,這是不科學的。《精益創業》中講過一個理念,把數據分析引入產品迭代,對已有的功能進行數據採集和數據分析,得出有用的結論引入下一輪迭代,從而改進產品。在這個過程中大數據分析很關鍵。

Facebook 的創始人曾經介紹過他的公司如何確定產品改進方向。Facebook 採用了一種機制:每一個員工如果有一個點子,可以抽樣幾十萬用戶進行嘗試,如果結果不行,就放棄這個點子,如果這個效果非常好,就推廣到更大範圍。這是把數據分析引入產品迭代的科學方法。

桑文鋒在 2007 年加入百度時,也發現了一個現象,他打開郵箱會收到幾十封報表,將百度知道的訪問量、提問量、回答量等一一介紹。當百度的產品經理提出一個需求時,工程師會從數據的角度提出疑問,這個功能爲什麼好?有什麼數據支撐?這個功能上線時如何評估?有什麼預期數據?這也是一種數據驅動產品的體現。

數據驅動運營監控

運營監控通常使用海盜模型,所謂的運營就是五件事:觸達是怎麼吸引用戶過來;然後激活用戶,讓用戶真正變成有效的用戶;然後留存,提高用戶粘性,讓用戶能停留在你的產品中不斷使用;接下來是引薦,獲取用戶這麼困難,能不能發動已有的用戶,讓已有用戶帶來新用戶,實現自傳播;最後是營收,做產品最終要賺錢。要用數據分析,讓運營做的更好。

數據分析方法

互聯網常見分析方法有幾種,多維分析、漏斗分析、留存分析、用戶路徑、用戶分羣、點擊分析等等,不同的數據分析方法適用於不同的業務場景,需要自主選擇。

舉個多維分析的例子,神策數據有一個視頻行業的客戶叫做開眼,他們的軟件有一個下載頁面,運營人員曾經發現他們的安卓 APP 下載量遠低於 iOS,這是不合理的。他們考慮過是不是 iOS 用戶更願意看視頻,隨後從多個維度進行了分析,否定了這個結論,當他們發現某些安卓版本的下載量爲零,分析到屏幕寬高時,看出這個版本下載按鈕顯示不出來,所以下載比例非常低。就這樣通過多維分析,找出了產品改進點。

舉個漏斗分析的例子,神策數據的官網訪問量很高,但是註冊-登錄用戶的轉化率很低,需要進行改進。所以大家就思考如何把轉化漏斗激活地更好,後來神策做了小的改變,在提交申請試用後加了一個查看登錄頁面,這樣用戶收到賬戶名密碼後可以隨手登錄,優化了用戶體驗,轉化率也有了可觀的提升。

四、指標

如何定義指標?對於創業公司來說,有兩種方法非常有效:第一關鍵指標法和海盜指標法。

第一關鍵指標法是《精益數據分析》中提出的理論,任何一個產品在某個階段,都有一個最需要關注的指標,其他指標都是這個指標的衍生,這個指標決定了公司當前的工作重點,對一個初創公司來說,可能開始關注日活,圍繞日活又擴展了一些指標,當公司的產品成熟後,變現就會成爲關鍵,淨收入(GMV)會變成第一關鍵指標。

更多數據分析乾貨和案例,可以關注「神策數據」公衆號瞭解~

想了解神策數據產品,可以點擊體驗 Demo 試用~