·數據要產生效益就必須流動,但數據一旦流通必然會產生安全問題。出臺數據安全政策后各機構間的隔閡逐漸加深,更不敢共享數據。聯邦學習以分布式、本地化的數據處理來規避數據傳輸過程中的隱私泄露問題,實現數據不動、模型動。隱私計算是數據廣域可信流通必需的“管道”技術。
南京航空航天大學研究生院院長陳兵分享《打破數據孤島,釋放數據效能》。
數據要產生效益就必須流動,但數據一旦流通必然會產生安全問題。國內外對數據安全進行監管,但政策出臺后,各機構間的隔閡逐漸加深,不敢共享數據,原本格式不統一的分散數據更難流通。5月25日,在福建省福州市舉辦的第七屆數字中國建設峰會數據要素賦能新型工業化工作會議上,南京航空航天大學研究生院院長陳兵在《打破數據孤島,釋放數據效能》中介紹了破解數據孤島、保護數據隱私的技術手段。
當數據被他人獲取后,自身就失去了對數據的控制權。一些單位害怕數據流通,最典型的例子就是醫院之間不愿共享數據。在AI時代,如何解決數據流通與安全的矛盾,在破解數據孤島的同時保證隱私?
陳兵表示,目前有多種技術和方法解決這一問題,如安全多方計算、差分隱私、集中加密計算、聯邦學習等。其中,安全多方計算通過隱藏部分信息保護隱私,參與各方基于交換的部分數據計算出正確結果。差分隱私即針對數據庫查詢分布與模型發布,通過混淆個體實現隱私保護。集中加密計算是將集中數據進行計算以解決性能問題,通過加密數據或加密程序運行防止數據泄露。聯邦學習是目前最流行的方法,以分布式、本地化的數據處理來規避數據傳輸過程中的隱私泄露問題,實現數據不動、模型動。
陳兵表示,橫向聯邦學習適用于參與者的數據特征重疊多、樣本ID重疊少的情況,可應用于醫療、視覺檢測等。在推進智慧醫療過程中,病癥、病理報告、檢測結果等病人隱私數據常分散在多家醫院、診所等不同地區不同類型的醫療機構,聯邦學習使得機構間可以跨地域協作而數據不出本地,多方合作建立的預測模型能夠更精準地預測癌癥、基因疾病等,同時能解決該領域樣本少、數據質量低等問題。縱向聯邦學習適用于參與用戶重疊多、特征重疊少的場景。例如在同一地區的不同醫院,其用戶集可能包含該區域的大多數居民,但不同醫院記錄了用戶的不同疾病數據,特征空間有較大不同,把不同醫院的看病數據綜合起來,實現對病人更加精準的治療。“通過聯邦學習,我們可以有效地讓數據在不需要流通的情況下,能夠被聯合起來使用,保護數據隱私。”
螞蟻集團董事長兼CEO井賢棟。
數據作為關鍵生產要素的價值日益凸顯,如何助力數據要素安全高效流通、促進數據要素價值釋放成為第七屆數字中國建設峰會期間各方熱議的焦點。5月24日,螞蟻集團董事長兼CEO井賢棟在峰會主論壇上也表示,數據要素要“用得好”,關鍵是“流得動”。數據要素的流通發展已經從“水井”式的自采自用、“桶裝水”式的點對點流通,快速發展為猶如“城市自來水網”的行業和區域間可信流通。井賢棟表示,要走向未來更廣域的可信流通,形成綜合水利工程,隱私計算是必需的“管道”技術。螞蟻正在探索下一代隱私計算技術,提供普惠隱私計算服務,讓數據價值的流動像自來水一樣即開即用。
以農業為例,過去農業數字化程度低,涉農數據“孤島化”,難以滿足銀行授信風控要求而獲得信貸支持。農業農村部大數據發展中心與網商銀行發起“農戶秒貸”項目,通過螞蟻集團隱私計算技術,安全融合多源數據,實時分析,掌握農戶經營情況,手機一點就能“秒貸秒批、隨借隨還”。至今超600萬農戶通過獲得貸款額度,累計授信964億元,其中約8成農戶種植面積不到10畝。