本文首發於Feng Yu的空間 https://yu-feng.top/
參考文獻《Federated Learning: Challenges, methods, and future, 2020》,較爲詳細的介紹當前FL的挑戰和解決方法以及未來可能的研究方向或切入點。
聯邦學習在保持數據本地化的同時涉及在遠程設備或孤立的數據中心(例如手機或醫院)上訓練統計模型。在異構網絡和潛在大規模網絡中進行訓練帶來了新的挑戰,這些挑戰要求從根本上區別於大規模機器學習,分佈式優化和隱私保護數據分析的標準方法。在本文中,我們討論了聯邦學習的獨特特徵和挑戰,提供了當前方法的廣泛概述,並概述了未來的幾個方向
因爲設備(智能手機、可穿戴設備和自動駕駛車輛)計算力的上升以及對隱私信息轉移的擔憂,所以將數據保存於本地和網絡計算邊緣化變得更加有吸引力。 ==>> 邊緣計算
正因爲在分佈式網絡下這些設備的存儲和計算能力使得利用每臺設備上的增強(enhanced)本地資源成爲可能,此外,用戶隱私信息保存於本地避免了隱私擔憂。 ==>> 聯邦學習
智能手機
單詞聯想 《A. Hard, K. Rao, R. Mathews, F. Beaufays, S. Augenstein, H. Eichner, C. Kiddon, and D. Ramage, Federated learning for mobile keyboard prediction. 2018. [Online]. Available: arXiv:1811.03604》
挑戰:用戶爲了保護個人隱私可能不願意分享數據或者節省手機有限的帶寬/電量
FL有潛力在不損害用戶體驗或泄露隱私信息前提下在智能手機上啓用預測功能
組織機構 --醫療機構
物聯網-- 可穿戴設備、自動駕駛車輛、智能家居
FL方法在公司的應用
隱私敏感應用
目標:
m表示總設備數量,p_k>=0 且 SUM(p_k)=1,F_k爲第k個設別的本地目標函數
昂貴的通信費用
系統異質性
由於硬件(CPU和內存)、網絡連接(3G、4G、5G、WiFi)、能量(電池等級)的差異,因此聯邦網絡中每個設備的存儲、計算和通信能力都各不相同
統計異質性
設備經常以高度不相同的方式在網絡上生成和收集數據
隱私問題
已經提出許多方法來解決優化和信號處理社區中的昂貴通信問題[28, 40, 43],但是這些方法無法完全處理聯邦網絡規模和系統與統計異質性的挑戰
通信效率
儘管提供對通信效率高的學習方法的獨立概述不在本文的討論範圍內,但我們指出了幾個總體方向,我們將其歸類爲1)本地更新方法,2)壓縮方案和3)分散培訓本地更新
本地更新
壓縮方案
去中心化(分佈式)訓練
在數據中心環境中,在低帶寬或高延遲的網絡上運行時,分佈式訓練已證明比集中式訓練要快。一些工作提出了基於截止日期(deadlines-based)的方法,所有工人在固定的全球週期內使用可變數量的樣本來計算局部梯度,這有助於減輕流浪者的影響[16],[39]。 (全面回顧[18])
[18] L. He, A. Bian, and M. Jaggi, 「Cola: Decentralized linear learning,」 in Proc. Advances in Neural Information Processing Systems, 2018, pp. 4541–4551.
在聯邦學習中,理論上分佈式算法可以減少中央服務器上的高通信成本。最近的一些工作研究了使用本地更新方案對異構數據進行分散訓練[18]。但是,它們要麼侷限於線性模型[18],要麼假定完全參與設備
系統異質性
統計異質性
隱私
機器學習中的隱私
在這些各種隱私方法中,由於**差分隱私[13]**強大的信息理論保證,算法簡單性以及相對較小的系統開銷,因此被最廣泛地使用
HE和SMC全面回顧[7]《R. Bost, R. A. Popa, S. Tu, and S. Goldwasser, 「Machine learning classification over encrypted data,」 in Proc. Network and Distributed System Security Symp., 2015. doi: 10.14722/ndss.2015.23241》
聯邦學習中的隱私
聯邦學習隱私分類:1)全局隱私,2)本地隱私
極致的通信方案
通信減少與the Pareto frontier
新穎的異步模型
異質性診斷
開放性問題:
細顆粒隱私限制
在實踐中,隱私約束可能在設備之間甚至單個設備的數據點之間都不同,因此有必要將隱私問題細分
超越監督學習之外的
生產化聯邦學習
除了本文討論的主要挑戰之外,在生產環境中運行聯合學習時還存在許多實際問題。尤其是諸如概念漂移(當基礎數據生成模型隨時間變化時),晝夜變化(當設備在一天或一週的不同時間表現出不同的行爲)之類的問題[14],以及冷啓動問題(當新設備進入網絡時)必須小心處理。
[5]《K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., 「Towards federated learning at scale: System design,」 in Proc. Conf. Machine Learning and Systems, 2019.》討論了生產聯邦學習系統中存在的一些與系統相關的實用問題
與傳統的分佈式數據中心計算和經典的隱私保護學習相比,討論了聯邦學習的獨特性質和相關挑戰。提供了關於經典結果的廣泛調查以及針對聯邦環境的最新工作。最後,概述了一些有待進一步研究的未解決問題。提供這些問題的解決方案將需要衆多研究社區的跨學科研究。
–fzhiy.更新於2020年9月2日16點51分