聯邦學習筆記（三）

時間 2021-01-08 標籤聯邦學習

本文首發於Feng Yu的空間 https://yu-feng.top/

寫在前面

參考文獻《Federated Learning: Challenges, methods, and future, 2020》，較爲詳細的介紹當前FL的挑戰和解決方法以及未來可能的研究方向或切入點。

Federated Learning: Challenges, methods, and future

摘要

聯邦學習在保持數據本地化的同時涉及在遠程設備或孤立的數據中心（例如手機或醫院）上訓練統計模型。在異構網絡和潛在大規模網絡中進行訓練帶來了新的挑戰，這些挑戰要求從根本上區別於大規模機器學習，分佈式優化和隱私保護數據分析的標準方法。在本文中，我們討論了聯邦學習的獨特特徵和挑戰，提供了當前方法的廣泛概述，並概述了未來的幾個方向

因爲設備（智能手機、可穿戴設備和自動駕駛車輛）計算力的上升以及對隱私信息轉移的擔憂，所以將數據保存於本地和網絡計算邊緣化變得更加有吸引力。 ==>> 邊緣計算

正因爲在分佈式網絡下這些設備的存儲和計算能力使得利用每臺設備上的增強(enhanced)本地資源成爲可能，此外，用戶隱私信息保存於本地避免了隱私擔憂。 ==>> 聯邦學習

FL的應用

智能手機
- 單詞聯想《A. Hard, K. Rao, R. Mathews, F. Beaufays, S. Augenstein, H. Eichner, C. Kiddon, and D. Ramage, Federated learning for mobile keyboard prediction. 2018. [Online]. Available: arXiv:1811.03604》
- 挑戰：用戶爲了保護個人隱私可能不願意分享數據或者節省手機有限的帶寬/電量
- FL有潛力在不損害用戶體驗或泄露隱私信息前提下在智能手機上啓用預測功能
組織機構 --醫療機構
- L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629
物聯網-- 可穿戴設備、自動駕駛車輛、智能家居

FL方法在公司的應用

K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., 「Towards federated learning at scale: System design,」 in Proc. Conf. Machine Learning and Systems, 2019.
M. J. Sheller, G. A. Reina, B. Edwards, J. Martin, and S. Bakas, 「Multi-institutional deep learning modeling without sharing patient data: A feasibility study on brain tumor segmentation,」 in Proc. Int. MICCAI Brainlesion Workshop, 2018, pp. 92–104. doi: 10.1007/978-3-030 -11723-8_9.

隱私敏感應用

T. S. Brisimi, R. Chen, T. Mela, A. Olshevsky, I. C. Paschalidis, and W. Shi, 「Federated learning of predictive models from federated electronic health records,」 Int. J. Medical Informatics, vol. 112, Apr. 2018, pp. 59–67. doi: 10.1016/j.ijmedinf.2018.01.007
L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629

挑戰

目標:

m表示總設備數量，p_k>=0 且 SUM(p_k)=1，F_k爲第k個設別的本地目標函數

昂貴的通信費用
- 爲了使模型適用於聯邦網絡中設備產生的數據，需要開發通信效率高的方法，該方法可以迭代地發送small message或者將模型更新作爲訓練過程的一部分，而不是通過網絡發送整個數據集
- 進一步減少這種設置下的通信，需要考慮兩個關鍵方面
  - 減少通信回合總數量
  - 減少每個回合發送信息的大小
系統異質性

由於硬件（CPU和內存）、網絡連接（3G、4G、5G、WiFi）、能量（電池等級）的差異，因此聯邦網絡中每個設備的存儲、計算和通信能力都各不相同
- 系統級別的特性極大地加劇了諸如straggler mitigation和容錯（fault tolerance）之類的挑戰；
- 已進行的FL方法有
  - 預計參與人數少
  - 容忍異質的硬件
  - 通信網絡中足夠堅固以防設備掉落
統計異質性

設備經常以高度不相同的方式在網絡上生成和收集數據
- [42]《V. Smith, C.-K. Chiang, M. Sanjabi, and A. Talwalkar, 「Federated multi-task learning,」 in Proc. Advances in Neural Information Processing Systems, 2017, pp. 4424–4434》數據生成範例違反了分佈式優化中經常使用的獨立且均勻分佈（i.i.d.）的假設，可能會增加問題建模，理論分析和解決方案的經驗評估方面的複雜性
- 多任務學習和元學習都支持個性化或特定於設備的建模，這通常是一種更自然的方法來處理數據的統計異構性，以實現更好的個性化
隱私問題
- 安全多方計算SMC
- 差分隱私DP
- 以上方法通常以減少模型表現或系統高效性爲代價換取隱私保護，因此平衡兩者關係是一個挑戰

未來研究方向

極致的通信方案
- 儘管在傳統的數據中心環境中已經探索了單次或分而治之的通信方案[29]，但是在大規模和統計異構網絡中，這些方法的行爲還沒得到很好的理解
通信減少與the Pareto frontier
- 聯邦訓練中減少通信的方法有本地更新和模型壓縮，瞭解這些技術之間的相互關係以及系統分析每種方法的準確性和通信之間的權衡很重要
- 有效的神經網絡推理對於FL通信減少技術中是有必要的
新穎的異步模型
- 批量同步方法
- 異步方法（假定延遲有限）
異質性診斷

開放性問題：
- 是否有簡單的診斷方法可以快速地預先確定聯邦網絡中的異質性水平？
- 是否可以開發類似的診斷方法來量化與系統相關的異質性數量？
- 是否可以利用當前或新的異質性定義來設計新的經驗和理論上具有改進收斂性的聯邦優化方法？
細顆粒隱私限制

在實踐中，隱私約束可能在設備之間甚至單個設備的數據點之間都不同，因此有必要將隱私問題細分
- sample-specific privacy[24]《J. Li, M. Khodak, S. Caldas, and A. Talwalkar, 「Differentially private meta-learning,」 in Proc. Int. Conf. Learning Representations, 2020》
- device-specifiv privacy
超越監督學習之外的
生產化聯邦學習

除了本文討論的主要挑戰之外，在生產環境中運行聯合學習時還存在許多實際問題。尤其是諸如概念漂移（當基礎數據生成模型隨時間變化時），晝夜變化（當設備在一天或一週的不同時間表現出不同的行爲）之類的問題[14]，以及冷啓動問題（當新設備進入網絡時）必須小心處理。

[5]《K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., 「Towards federated learning at scale: System design,」 in Proc. Conf. Machine Learning and Systems, 2019.》討論了生產聯邦學習系統中存在的一些與系統相關的實用問題

總結

與傳統的分佈式數據中心計算和經典的隱私保護學習相比，討論了聯邦學習的獨特性質和相關挑戰。提供了關於經典結果的廣泛調查以及針對聯邦環境的最新工作。最後，概述了一些有待進一步研究的未解決問題。提供這些問題的解決方案將需要衆多研究社區的跨學科研究。

參考文獻

[1] Federated Learning: Challenges, methods, and future, 2020

–fzhiy.更新於2020年9月2日16點51分