試試這個!研究人員設計出了更好的推薦算法

試試這個!研究人員設計出了更好的推薦算法

文章來源:ATYUN AI平臺 

改進的推薦算法在評級數據「稀疏」的情況下尤其有效。

亞馬遜和Netflix等網站的推薦系統使用了一種名爲「協同過濾」的技術。爲了確定一個給定的客戶可能喜歡什麼產品,他們尋找更多的客戶,他們已經爲類似範圍的產品分配了類似的評級,並從那裏進行推斷。

這種方法的成功在很大程度上取決於相似性的概念。大多數推薦系統使用一種叫做餘弦相似度的方法,這種方法在實踐中似乎很有效。去年,在神經信息處理系統會議上,麻省理工學院的研究人員用了一個新的理論框架來證明爲什麼餘弦相似性會產生如此好的效果。

本週,在神經信息處理系統會議上,他們報告說, 他們已經使用他們的框架來構建一個新的推薦算法,應該比現在使用的推薦算法更好,特別是當評級數據「稀疏」時——也就是說, 在審查的產品和不同的客戶分配的評級之間。

該算法的基本策略很簡單:當試圖預測顧客對某一產品的評價時,不僅要使用相似品味的人的評分,而且要使用與這些人相似的人的評分等等。

這個想法很直觀,但在實踐中,一切都取決於具體的相似性度量。

「如果我們真的很慷慨,每個人都會看起來很像彼此,」電子工程和計算機科學教授Devavrat ShahDevavrat Shah說。 「另一方面,如果我們真的很嚴格,我們就能有效地觀察到最近的鄰居。」或者換句話說,當你從一個朋友的喜好轉移到朋友的朋友時,這個過程中引入了什麼噪音,是否有一個正確的方法來量化這種噪音,這樣我們就能平衡我們所引入的噪音所帶來的信號。因爲我們的模型,我們確切地知道什麼是正確的。

所有的角度

事實證明,正確的做法是再次使用餘弦相似度。從本質上講,餘弦相似度表示客戶的偏好在一個非常高維的空間中的一條線,並將相似度定義爲兩條線之間的角度。

例如,假設在笛卡爾平面上有兩個點,即高中代數所熟悉的二維座標系。如果將點連接到原點(座標爲(0,0)的點),則可以定義一個角度,並可以從點座標本身計算餘弦。

如果一個電影流媒體服務在其數據庫中有5000個標題,那麼任何給定的用戶分配的評分都定義了一個5000維空間中的一個點。餘弦相似度衡量該空間中任何兩組評分之間的角度。

然而,當數據「稀疏」的時候,用戶對餘弦相似度的評價幾乎沒有意義。在這種情況下,彙集許多用戶的數據變得必要。

研究人員的分析是理論上的,但這是他們的算法在實踐中如何運作的一個例子。對於任何一個給定的客戶,它都會選擇一個小的集合——比方說,5個客戶,他們擁有最大的餘弦相似度,並且平均得分。然後,對於每一個客戶,它將選擇5個類似的客戶,平均他們的評級,並將平均值摺疊爲累積平均值。它將繼續以這種方式展開,建立一套越來越完整的評級,直到它有足夠的數據來對利率產品的評級做出合理的估計。

填空

對於Shah和兩位微軟同事,Christian Borgs和Jennifer Chayes——設計這樣的算法並不是最困難的。最大的挑戰是證明它能很好地工作,這就是論文的重點。

想象一個巨大的二維網格,它將所有的電影流媒體服務的用戶都映射到所有的標題上,每個單元中的一個數字對應一個給定用戶評分的電影。大多數用戶只看了幾部電影,所以大部分的網格都是空的。推薦引擎的目標是儘可能準確地填充空網格單元。

Shah說,通常情況下,機器學習系統會學習兩件事:數據集預測有用的特徵,以及計算這些特徵預測的數學函數。爲了預測電影的口味,有用的功能可能包括電影的類型,它的票房表現,獲得的奧斯卡提名的數量,領導者的歷史票房成功記錄,分銷商,或者任何其他的東西。

每個電影流媒體服務的客戶都有其自身的價值功能:如果適合動作流派並且預算很大,則可能更傾向於對電影進行更高的評價;另一個可能會給一部獲得衆多奧斯卡提名的電影給予很高的評價,並有一個小型的藝術發行商。

玩賠率

在新的分析方案中,研究人員的確假設每個用戶的價值功能都保持不變:用戶分配給流派和分銷商的相對權重不會改變。研究人員還假設,每個用戶的功能都在同一套電影功能上運行。

事實證明,這提供了足夠的一致性,可以得出關於一個用戶的評分可能預測另一個評分的可能性的統計推斷。

「當我們對一部電影進行採樣時,我們實際上並不知道它的功能是什麼,所以如果我們想準確預測這個功能,我們將無法做到,」Lee說。「但如果我們只是想估算用戶功能之間差異,我們則可以計算出這個差異。」

使用他們的分析框架,研究人員發現,在數據「稀疏」的情況下——描述大多數在線零售商的情況,他們的「鄰居」算法應該比任何已知的算法產生更準確的預測。

然而,在這種理論算法分析和工作計算機系統之間的轉換,往往需要一些創新的工程,因此研究人員的下一步是嘗試將他們的算法應用到真實的數據中 。

卡內基梅隆大學(Carnegie Mellon University)的亨氏公共政策和信息系統學院的助理教授喬治•陳(George Chen)表示:「他們展示的算法簡單、直觀、優雅。」「如果其他人還沒有嘗試過類似的算法,我會感到驚訝,儘管Devavrat和Christina在Christian Borgs和Jennifer Chayes的論文中提到。但據我所知,這種處理稀疏採樣機制算法的理論性是可以得到保證的,這在許多情況下是最實際的。」

本文轉自ATYUN人工智能媒體平臺,原文鏈接:試試這個!研究人員設計出了更好的推薦算法

更多推薦

大疆創新無人機符合加拿大交通部對空域無人機操作的最新管制規定

Atomwise和Charles River Laboratories建立戰略聯盟:通過AI集成驅動藥物發現

CitrineInformatics:榮獲2018年度最佳創業企業獎 ,其中AI平臺獲得加速材料和化學品開發金獎

H2O.ai:通過自然語言處理將無人駕駛AI技術擴展到新的領域

歡迎關注ATYUN官方公衆號,商務合作及內容投稿請聯繫郵箱:bd@atyun.com
歡迎關注ATYUN官方公衆號,商務合作及內容投稿請聯繫郵箱:[email protected]