聯邦學習筆記(三)

本文首發於Feng Yu的空間 https://yu-feng.top/

寫在前面

​ 參考文獻《Federated Learning: Challenges, methods, and future, 2020》,較爲詳細的介紹當前FL的挑戰和解決方法以及未來可能的研究方向或切入點。

Federated Learning: Challenges, methods, and future

摘要

​ 聯邦學習在保持數據本地化的同時涉及在遠程設備或孤立的數據中心(例如手機或醫院)上訓練統計模型。在異構網絡和潛在大規模網絡中進行訓練帶來了新的挑戰,這些挑戰要求從根本上區別於大規模機器學習,分佈式優化和隱私保護數據分析的標準方法。在本文中,我們討論了聯邦學習的獨特特徵和挑戰,提供了當前方法的廣泛概述,並概述了未來的幾個方向

​ 因爲設備(智能手機、可穿戴設備和自動駕駛車輛)計算力的上升以及對隱私信息轉移的擔憂,所以將數據保存於本地和網絡計算邊緣化變得更加有吸引力。 ==>> 邊緣計算

​ 正因爲在分佈式網絡下這些設備的存儲和計算能力使得利用每臺設備上的增強(enhanced)本地資源成爲可能,此外,用戶隱私信息保存於本地避免了隱私擔憂。 ==>> 聯邦學習

FL的應用

  • 智能手機

    • 單詞聯想 《A. Hard, K. Rao, R. Mathews, F. Beaufays, S. Augenstein, H. Eichner, C. Kiddon, and D. Ramage, Federated learning for mobile keyboard prediction. 2018. [Online]. Available: arXiv:1811.03604》

    • 挑戰:用戶爲了保護個人隱私可能不願意分享數據或者節省手機有限的帶寬/電量

    • FL有潛力在不損害用戶體驗或泄露隱私信息前提下在智能手機上啓用預測功能

  • 組織機構 --醫療機構

    • L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629
  • 物聯網-- 可穿戴設備、自動駕駛車輛、智能家居

FL方法在公司的應用

  • K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., 「Towards federated learning at scale: System design,」 in Proc. Conf. Machine Learning and Systems, 2019.
  • M. J. Sheller, G. A. Reina, B. Edwards, J. Martin, and S. Bakas, 「Multi-institutional deep learning modeling without sharing patient data: A feasibility study on brain tumor segmentation,」 in Proc. Int. MICCAI Brainlesion Workshop, 2018, pp. 92–104. doi: 10.1007/978-3-030 -11723-8_9.

隱私敏感應用

  • T. S. Brisimi, R. Chen, T. Mela, A. Olshevsky, I. C. Paschalidis, and W. Shi, 「Federated learning of predictive models from federated electronic health records,」 Int. J. Medical Informatics, vol. 112, Apr. 2018, pp. 59–67. doi: 10.1016/j.ijmedinf.2018.01.007
  • L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629

挑戰

目標:

m表示總設備數量,p_k>=0 且 SUM(p_k)=1,F_k爲第k個設別的本地目標函數

  • 昂貴的通信費用

    • 爲了使模型適用於聯邦網絡中設備產生的數據,需要開發通信效率高的方法,該方法可以迭代地發送small message或者將模型更新作爲訓練過程的一部分,而不是通過網絡發送整個數據集
    • 進一步減少這種設置下的通信,需要考慮兩個關鍵方面
      • 減少通信回合總數量
      • 減少每個回合發送信息的大小
  • 系統異質性

    由於硬件(CPU和內存)、網絡連接(3G、4G、5G、WiFi)、能量(電池等級)的差異,因此聯邦網絡中每個設備的存儲、計算和通信能力都各不相同

    • 系統級別的特性極大地加劇了諸如straggler mitigation和容錯(fault tolerance)之類的挑戰;
    • 已進行的FL方法有
      • 預計參與人數少
      • 容忍異質的硬件
      • 通信網絡中足夠堅固以防設備掉落
  • 統計異質性

    設備經常以高度不相同的方式在網絡上生成和收集數據

    • [42]《V. Smith, C.-K. Chiang, M. Sanjabi, and A. Talwalkar, 「Federated multi-task learning,」 in Proc. Advances in Neural Information Processing Systems, 2017, pp. 4424–4434》 數據生成範例違反了分佈式優化中經常使用的獨立且均勻分佈(i.i.d.)的假設,可能會增加問題建模,理論分析和解決方案的經驗評估方面的複雜性
    • 多任務學習元學習都支持個性化或特定於設備的建模,這通常是一種更自然的方法來處理數據的統計異構性,以實現更好的個性化
  • 隱私問題

    • 安全多方計算SMC
    • 差分隱私DP
    • 以上方法通常以減少模型表現或系統高效性爲代價換取隱私保護, 因此平衡兩者關係是一個挑戰

相關工作

已經提出許多方法來解決優化和信號處理社區中的昂貴通信問題[28, 40, 43],但是這些方法無法完全處理聯邦網絡規模和系統與統計異質性的挑戰

  • 通信效率

    儘管提供對通信效率高的學習方法的獨立概述不在本文的討論範圍內,但我們指出了幾個總體方向,我們將其歸類爲1)本地更新方法,2)壓縮方案和3)分散培訓本地更新

    • 本地更新

      • 小批處理優化方法涉及擴展經典的隨機方法以一次處理多個數據點,已成爲數據中心環境中分佈式機器學習的流行範例。然而,實際上,他們在適應通信計算權衡方面顯示出有限的靈活性[53]《S. Zhang, A. E. Choromanska, and Y. LeCun, 「Deep learning with elastic averaging SGD,」 in Proc. Advances in Neural Information Processing Systems, 2015, pp. 685–693》
      • 最近的一些方法:通過允許在每個通信回合中並行地將變量應用於每臺計算機(而不是僅局部地計算它們然後集中地應用它們)來提高分佈式設置中的通信效率。 [44]《S. U. Stich, 「Local SGD converges fast and communicates little,」 in Proc. Int. Conf. Learning Representations, 2019.》。這使得計算量與通信量相比更加靈活。
      • 對於凸目標,分佈式局部更新原始方法已經成爲解決此類問題的一種流行方法[43]《V. Smith, S. Forte, C. Ma, M. Ta kac, M. I. Jordan, and M. Jaggi, 「CoCoA: A general framework for communication-efficient distributed optimization,」 J. Mach. Learning Res., vol. 18, no. 1, pp. 8590–8638, 2018》;一些分佈式局部更新原始方法對非凸目標也可有額外的好處
      • 最常用的優化方法是聯邦平均(FedAvg)算法,已經證明FedAvg在實際中可以很好地工作,特別是對於非凸問題,但是它沒有收斂保證,並且在數據異構情況下會在實際設置中發散[25]《T. Li, A. K. Sahu, M. Sanjabi, M. Zaheer, A. Talwalkar, and V. Smith, 「Federated optimization in heterogeneous networks,」 in Proc. Conf. Machine Learning and Systems, 2020.》
    • 壓縮方案

      • 儘管本地更新方法可以減少通信回合的總數,但是模型壓縮方案(例如稀疏化和量化)可以顯著減少每次回合傳遞的消息的大小。全面回顧[47]《 H. Wa ng, S. Sievert, S. Liu, Z. Charles, D. Papailiopoulos, and S. Wright, 「ATOMO: Communication-efficient learning via atomic sparsification,」 in Proc. Advances in Neural Information Processing Systems, 2018, pp. 1–12.》
      • 在FL環境中,設備的參與度低、分佈不均的本地數據和本地更新方案對模型壓縮方法提出新挑戰
      • FL設置中的實用策略
        • 迫使更新模型稀疏和低等級[22]
        • 使用結構化隨機旋轉實現量化[22]
        • 使用有損壓縮和丟失來減少服務器到設備的通信[9]
      • 理論上,先前的工作探索了存在不完全相同的數據情況下進行低精度訓練的收斂性保證[45],但所做假設未考慮聯邦環境的共同特徵,例如設備參與度低 或 本地更新優化方法
    • 去中心化(分佈式)訓練

      • 在數據中心環境中,在低帶寬或高延遲的網絡上運行時,分佈式訓練已證明比集中式訓練要快。一些工作提出了基於截止日期(deadlines-based)的方法,所有工人在固定的全球週期內使用可變數量的樣本來計算局部梯度,這有助於減輕流浪者的影響[16],[39]。 (全面回顧[18])

        [18] L. He, A. Bian, and M. Jaggi, 「Cola: Decentralized linear learning,」 in Proc. Advances in Neural Information Processing Systems, 2018, pp. 4541–4551.

      • 在聯邦學習中,理論上分佈式算法可以減少中央服務器上的高通信成本。最近的一些工作研究了使用本地更新方案對異構數據進行分散訓練[18]。但是,它們要麼侷限於線性模型[18],要麼假定完全參與設備

  • 系統異質性

    • 異步通信
    • 主動採樣(active sampling)
    • 容錯能力
      • 儘管一些工作研究了FL變體方法理論上的收斂保證,但是很少的工作允許低參與或者直接研究掉線設備的影響。 FedProx
      • 編碼計算(Coded computation)通過引入算法冗餘 [11]
  • 統計異質性

    • 建模異構數據
      • 元學習、多任務學習[12, 14, 21],如MOCHA[42]
    • non-iid數據的收斂保證
      • 在IID設置中[38,48,53]已經分析了Parallel SGD及其相關變體使得本地更新類似於FedAvg。但是,結果依賴一個前提,即每個本地求解器是同一個隨機過程的副本(iid假設),在典型的聯邦設置中情況不是這樣
      • FedProx, 關鍵思想:系統異質性和統計異質性之間存在相互作用。FedProx對FedAvg方法進行了較小的修改,它允許根據基礎的系統約束跨設備執行部分工作,並利用近端項來安全地合併部分工作。 可以將其視爲FedAvg的重新參數化
  • 隱私

    • 機器學習中的隱私

      在這些各種隱私方法中,由於**差分隱私[13]**強大的信息理論保證,算法簡單性以及相對較小的系統開銷,因此被最廣泛地使用

      • 差分隱私以傳達嘈雜的數據草圖
      • 同態加密以對加密數據進行操作
      • 安全功能評估(SFE)或多方計算
      • k-anonymity匿名和σ-presence存在

      HE和SMC全面回顧[7]《R. Bost, R. A. Popa, S. Tu, and S. Goldwasser, 「Machine learning classification over encrypted data,」 in Proc. Network and Distributed System Security Symp., 2015. doi: 10.14722/ndss.2015.23241》

    • 聯邦學習中的隱私

      聯邦學習隱私分類:1)全局隱私,2)本地隱私

      • 當前工作旨在提高聯邦學習隱私,這些工作經常建立在以前經典密碼協議(SMC[4]和DP[2])的基礎上
      • 安全聚合是一種無損方法並且可以保持高度隱私保護的情況下保留原始準確性。但是最終方法會產生大量的額外通信成本
      • 其他諸如將DP應用於聯邦學習並提供全局差異隱私[32]的方法具有許多影響通信和準確性的超參數,因此必須謹慎選擇。
      • DP可以與模型壓縮技術結合使用以減少通信同時獲得隱私好處[1]《N. Agarwal, A. T. Suresh, F. X. X. Yu, S. Kumar, and B. McMahan, 「cpSGD: Communication-efficient and differentially-private distributed SGD,」 in Proc. Advances in Neural Information Processing Systems, 2018, pp. 7564–7575》

未來研究方向

  • 極致的通信方案

    • 儘管在傳統的數據中心環境中已經探索了單次或分而治之的通信方案[29],但是在大規模和統計異構網絡中,這些方法的行爲還沒得到很好的理解
  • 通信減少與the Pareto frontier

    • 聯邦訓練中減少通信的方法有本地更新和模型壓縮,瞭解這些技術之間的相互關係以及系統分析每種方法的準確性和通信之間的權衡很重要
    • 有效的神經網絡推理對於FL通信減少技術中是有必要的
  • 新穎的異步模型

    • 批量同步方法
    • 異步方法(假定延遲有限)
  • 異質性診斷

    開放性問題:

    • 是否有簡單的診斷方法可以快速地預先確定聯邦網絡中的異質性水平?
    • 是否可以開發類似的診斷方法來量化與系統相關的異質性數量?
    • 是否可以利用當前或新的異質性定義來設計新的經驗和理論上具有改進收斂性的聯邦優化方法?
  • 細顆粒隱私限制

    在實踐中,隱私約束可能在設備之間甚至單個設備的數據點之間都不同,因此有必要將隱私問題細分

    • sample-specific privacy[24]《J. Li, M. Khodak, S. Caldas, and A. Talwalkar, 「Differentially private meta-learning,」 in Proc. Int. Conf. Learning Representations, 2020》
    • device-specifiv privacy
  • 超越監督學習之外的

  • 生產化聯邦學習

    除了本文討論的主要挑戰之外,在生產環境中運行聯合學習時還存在許多實際問題。尤其是諸如概念漂移(當基礎數據生成模型隨時間變化時),晝夜變化(當設備在一天或一週的不同時間表現出不同的行爲)之類的問題[14],以及冷啓動問題(當新設備進入網絡時)必須小心處理。

    [5]《K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., 「Towards federated learning at scale: System design,」 in Proc. Conf. Machine Learning and Systems, 2019.》討論了生產聯邦學習系統中存在的一些與系統相關的實用問題

總結

與傳統的分佈式數據中心計算和經典的隱私保護學習相比,討論了聯邦學習的獨特性質和相關挑戰。提供了關於經典結果的廣泛調查以及針對聯邦環境的最新工作。最後,概述了一些有待進一步研究的未解決問題。提供這些問題的解決方案將需要衆多研究社區的跨學科研究。

參考文獻

  • [1] Federated Learning: Challenges, methods, and future, 2020

–fzhiy.更新於2020年9月2日16點51分