數據安全、隱私保護、數據孤島是AI時代遇到的普遍難題。
在人工智能的發展道路上,除了算法、算力的要求,“喂養”人工智能模型需要海量、多維數據進行模型訓練。在此過程中,數據安全、個人數據隱私等風險事件頻發,數據孤島現象頻現。隱私與數據保護越發得到重視,相關的法律法規日漸嚴格和完善。
在此背景下,“聯邦學習”為以上問題的解決提供了一個可行方案。
【資料圖】
所謂“聯邦學習”,其基本思想是建立一個共有模型,各個參與者的身份和地位相同,通過加密機制下的參數交換方式,實現不同企業、不同部門所擁有的數據不交換、不移動。在不違反數據隱私保護法律法規的前提下,模型利用全量數據進行訓練和模型優化,從而得到最優模型結果。
香港科技大學計算機與工程系講座教授和前系主任、中國人工智能學會(CAAI)榮譽副理事長、微眾銀行首席人工智能官楊強教授曾以羊與草為喻,形容聯邦學習的思路所在。
假設用一只羊來類比機器學習模型,我們希望羊吃了草以后能夠長大。過去的做法是,把草買到一起來建立模型。羊不動,但是草被購買到中心。相當于用簡單粗暴的辦法來獲取數據,形成大數據,來建立模型。
但我們希望能夠保護各自的隱私,所以讓草不動,讓羊動。也就是說,我們帶著模型到不同的草場去訪問,那么久而久之羊就長大了——這個就是聯邦學習的新思路,就是讓草不出草場,本地主人無法知道羊吃了哪些草,但是羊還是長大了。
“聯邦學習”在解決數據共享和數據隱私保護領域展現出強大的吸引力。到目前為止,聯邦學習已在金融、廣告營銷等方面獲得落地。
比如,互聯網平臺推送“千人千面”式的營銷信息時,其背后的推薦模型就需要大量用到用戶的特征數據。但單一企業只擁有用戶的一部分特征數據,如果可以接入更多其他互聯網企業的數據或者是投放廣告主關于用戶的數據,那么將大幅提升廣告推薦的效果,既能提升點擊率也可以提升廣告主的ROI,聯邦學習的出現就很好的解決了這個問題。
金融領域同樣如此,單個金融機構掌握的用戶信息較少,除了個人征信系統之外,各平臺數據之間彼此是不互通的。聯邦學習的出現同樣讓各大金融機構之間可以聯合建模,對于用戶的資質進行全面客觀的評價,降低貸款的違約率和資產的不良率。
不過在現實中,“聯邦學習”商業應用仍然面臨一些問題,且其在技術研究中也仍然存在一些難點有待突破。
比如,如何在效率、性能與安全性之間取得平衡是一個難題。目前“聯邦學習”系統嚴格保護用戶本地數據不外泄,只傳輸模型更新,而且即使是模型更新,也會對模型進行加密后再傳輸。對于更復雜的加密系統,就意味著回傳也需要更多的資源和實踐去解密。效率、性能與安全性之間有此存在沖突。
再如,“聯邦學習”面臨著的“數據下毒”的威脅。聯邦學習的分布式特點以及安全聚合機制往往讓數據造假變得更容易,更難被發現和舉證。每一方都有可能通過構造“數據下毒”來控制整個模型的訓練結果。
經過數年發展,“聯邦學習”究竟在技術和商業應用層面有何發展?
對此,鈦媒體App近日專訪了楊強教授,楊強是國內聯邦學習領域的知名學者。2018年,楊強帶領的微眾銀行AI團隊在國內國內引進了并延展了聯邦學習(Federated Learning)概念,在國際首次系統性提出聯邦學習理論。2019年,微眾銀行AI團隊開源了首個工業級聯邦學習技術框架FATE,同年6月捐獻給Linux基金會。
不久前,楊強教授的團隊與上海交通大學、中山大學等機構聯合撰寫的三篇論文被IJCAI 2022、TPAMI 2022、ACM TIST等國際人工智能頂級學術期刊和頂級學術會議收錄發表。三篇論文分別為:《聯邦學習中隱私與模型性能沒有免費午餐定理》、《FedCG: 聯邦生成對抗網絡保護隱私保障性能》、《FedIPR:聯邦學習模型所屬權驗證》。
在楊強教授的回答中,有三點觀點值得關注。首先,在聯邦學習的隱私保護、模型性能、算法效率三者需要平衡,且可以平衡,目前楊強教授的團隊已經找到了一條在更好的隱私保護能力的同時,讓模型性能上也具有競爭力的一條道路。
其次,長遠來看,隨著社會數智化的發展、數據要素的流通、數據交易所的落地,數據的定價、數據知識產權的認證,數據安全隱私的保護等環節都離不開聯邦學習,這也是聯邦學習發展的最大機遇。
第三,讓技術和法律法規結合起來是一大挑戰。關鍵是要讓整個聯邦學習決策過程變得可解釋、透明,并且可監管、可問詢、可追蹤。
以下是鈦媒體App與楊強教授的采訪實錄,經編輯后發布:
解讀三篇論文:從理論到實踐,再到規模化和工程化
問:近期發表的3篇論文,分別是從信息論、聯邦學習效率提升以及模型版權驗證切入,為什么會選擇這3個角度作為研究的切入?背后有怎樣的研究路徑和規劃?
楊強:計算機學科的發展往往是先有理論再有實踐,然后進一步發展理論,我們現在處于第三步,那么這一步的理論要解決的問題是什么?
首先,我們要注意聯合建模的安全性(這個是大家特別關心的)和聯合建模的可用性。如果只是一個極端安全的模型,沒有人能用,這東西也沒用。模型質量要好、準確率高,同時訓練速度要快,要安全,需要這三點的平衡。
基于這三點的平衡,我們就要做下面幾件事,第一件事,是要證明這其中確實是需要做平衡的。因此,我們發布的文章《聯邦學習中隱私與模型性能沒有免費午餐定理》闡述,聯邦學習的隱私和模型性能是沒有免費午餐。兩者必須要做出權衡和取舍。
第二,在聯邦學習的安全和效率之間,有沒有可能很聰明地發明一些算法,能夠實現安全性和模型的效能,以及準確率的同時提升。我們發表 《FedCG:聯邦條件對抗生成網絡》闡述了,我們可以在每一個參與方都建立一個它的鏡像模型,然后讓這些鏡像模型之間互相溝通,這樣就大大的降低了隱私泄露的可能性,同時我們建模效率和效果都大為提升。
關于最后一篇文章,聯邦學習不僅僅是一個訓練、一個模型,而是從數據的收集、選擇,模型的訓練,到模型的治理,直至模型和別人進行交換。在這種情況下,我們就提出了“全生命周期的聯邦學習的模型治理”。
具體來說,模型治理其實和數據治理一樣重要。未來的世界我們看到是一個數字化的世界,而數字都是以模型的形式出現。但是,每個模型是誰做出來的,誰用過,誰從誰那買的,這個模型有什么危險性,有什么特別性等等,這些問題我們都叫模型的所屬權驗證。而在模型里面加入水印實現歸屬權的驗證,目前在業界我們是第一個做出來。
我們基于這3個不同的角度,從理論到實踐,到規模化,到工程化生命周期管理,應該說是一個全面的概括。這是“可信聯邦學習”的一個里程碑。
行業應用及商業前景
問:從目前的應用,到未來可以預見的一些場景,聯邦學習會產生哪幾方面的影響?在與行業結合的過程中,還有什么問題需要注意?
楊強:越來越多的行業在提數字化和智能化,聯合起來就是數智化。數智化的過程,離不開一個觀念,就是數據要素的流通,數據從一個地方流到另外一個地方,通過數據交易所進行交易。所以需要對數據進行定價,數據的知識產權要有認證,數據的安全隱私要有保護,這些要求是未來金融的一些重要的特征,而所有這些都離不開聯邦學習,聯邦學習實現這些目標的一個有力工具。
未來要注意的一個重要方面,就是如何有機地讓技術和法律法規結合起來。現在有數據安全法,還有很多金融行業的一些規章制度,其中有一部分是可以用技術來實現的,但是有一部分是需要有法律和監管來實現的,這兩方面的有機結合,我們現在正在嘗試。我們要做到這種無縫的對接,能夠既有技術的保證,又有法律和規章的保證,同時又需要讓整個決策過程變得可解釋,透明,并且可監管、可問詢、可追蹤,這些都是我們所面臨的一些挑戰。
問:從商業化的角度來看,聯邦學習未來的商業潛力是怎樣的?
楊強:其實他們就像任何技術一樣,是需要滿足自然的發展規律的,比方說一個技術的出現,先適用在一些案例上,取得了成功,于是各方都想積極地參與試用,會發現一些挑戰,會有一些新的解決方案,讓這些技術進行升級,這樣最后能夠成熟到大家都普遍使用,所以聯邦學習和剛才所說的這些技術,也是一樣的,要滿足這樣的規律的。
這其中的市場空間應該是很廣泛的,在我個人看來,未來的計算,一定是數據和模型的計算。為了保護數據安全和用戶隱私,在我們管道里跑的不應該是原始數據,應該是由數據產生的模型,而模型的交流組合、更新迭代,認證審計,這些都需要我們整個人工智能行業和大數據行業的升級迭代,都離不開聯邦學習。(作者|蔡鵬程)
關鍵詞: 微眾銀行
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.xnbt.net All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
主站蜘蛛池模板: 处女的诱惑在线观看| 欧美不卡视频在线观看| 香蕉视频久久久| 色婷婷激婷婷深爱五月小蛇| 亚洲美女人黄网成人女| 色综合久久网| 毛片大全免费| 日韩黄色一级| 极品丝袜乱系列全集| 蜜桃成熟时1997在线看免费看| 精品一区二区三区在线观看视频 | 动漫美女吸乳羞羞动漫| yy6080理论午夜一级毛片| 花蝴蝶免费版高清版| 无翼乌里番| 特a级片| 日本高清免费一本视频无需下载| 免费国产成人午夜私人影视| 久久国产精品-国产精品| 色八a级在线观看| 抵在洗手台挺进撞击bl| 91视频入口| 欧美国产日韩久久mv| 亚洲ww| 12至16末成年毛片| 性久久久久久久| 香蕉在线观看| 大片毛片女女女女女女女| 日本中文字幕一区二区高清在线| 国产精品v欧美精品∨日韩| 紧窄极品名器美妇灌| 日韩黄色大全| 一嫁三夫电影免费观看| 国产无套乱子伦精彩是白视频| 免费羞羞视频网站| 亚洲国产中文在线视频| 韩国美女主播免费的网站| 天天射天天干天天| 国产va免费精品观看精品| 欧美性色黄大片www喷水| 亚洲电影a|