3月29日,「隱語開源社區(qū)開放日」活動(dòng)順利舉辦。隱語社區(qū)不僅在當(dāng)日正式開源隱語SCQL多方安全數(shù)據(jù)分析引擎,這是業(yè)內(nèi)首個(gè)將SQL 做到多方安全計(jì)算(MPC)技術(shù)的數(shù)據(jù)分析系統(tǒng),提供工業(yè)級的多方安全聯(lián)合分析功能,目前已在隱語 GitHub 社區(qū)開源,面向全球開發(fā)者免費(fèi)開放推動(dòng)隱私計(jì)算邁向更加易用,活動(dòng)現(xiàn)場社區(qū)也廣邀行業(yè)、企業(yè)、高校、科研的隱私計(jì)算開發(fā)者與使用者,開展了一場平等雙向的開放交流。
(相關(guān)資料圖)
社區(qū)互動(dòng)零距離:小小便利貼走近與聆聽開發(fā)者的關(guān)注
社區(qū)在現(xiàn)場設(shè)置了開放留言及拍照打卡區(qū),“全同態(tài)加密的效率問題,多久才能產(chǎn)品化?”“MPC SQL 的具體落地場景有哪些?”“隱私計(jì)算市場規(guī)模?人才需求?”留言內(nèi)容從技術(shù)性能的突破、到產(chǎn)業(yè)應(yīng)用的前景、再到個(gè)人職業(yè)的發(fā)展,開放包容地探討著關(guān)于隱私計(jì)算的方方面面。
開源生態(tài)全方位:企業(yè)、科研、社區(qū)之星分享共建故事與成果
活動(dòng)邀請到各界代表共話隱私計(jì)算技術(shù)現(xiàn)狀與未來趨勢,內(nèi)容核心緊緊圍繞隱語代碼共建&使用開展,聯(lián)通隱私計(jì)算各層生態(tài)、內(nèi)容視角涵蓋開發(fā)者、使用者、共建者。浙江大學(xué)求是講席教授、ACM/IEEE Fellow任奎為活動(dòng)致辭,以數(shù)據(jù)要素為切入點(diǎn),強(qiáng)調(diào)當(dāng)前隱私安全石責(zé)任也是核心競爭力,隱私計(jì)算作為此間的核心技術(shù)之一,其開源是必要趨勢、也是技術(shù)產(chǎn)業(yè)化加速的重要推動(dòng)力。
螞蟻集團(tuán)副總裁兼首席技術(shù)安全、北京大學(xué)客座教授韋韜以《數(shù)據(jù)要素大潮的技術(shù)挑戰(zhàn)》為題進(jìn)行了演講。拆解分析了數(shù)據(jù)要素密態(tài)發(fā)展三個(gè)階段所面臨的不同挑戰(zhàn),在此過程中,方法體系、平臺(tái)框架、技術(shù)標(biāo)準(zhǔn)等方面都面臨全新變革?!澳壳埃覀兠軕B(tài)時(shí)代處于計(jì)算密態(tài)化和大數(shù)據(jù)密態(tài)化中間,計(jì)算密態(tài)化中的安全挑戰(zhàn)依然是行業(yè)中非常需要重視的問題;未來大數(shù)據(jù)密態(tài)化之時(shí),核心則要拓展技術(shù)應(yīng)用深度,才足以面對數(shù)據(jù)要素全面密態(tài)化的挑戰(zhàn)?!?
隱語框架負(fù)責(zé)人王磊在現(xiàn)場發(fā)布中講到:“在實(shí)際場景中,BI的應(yīng)用面更廣。對于大部分?jǐn)?shù)字化轉(zhuǎn)型起步較晚、正在進(jìn)程中的企業(yè),更多是通過一些規(guī)則、數(shù)據(jù)分析、人工分析的方式進(jìn)行數(shù)據(jù)處理。數(shù)據(jù)要素市場化是要賦能行業(yè)應(yīng)用和實(shí)體經(jīng)濟(jì)、是要驅(qū)動(dòng)經(jīng)濟(jì)的整體發(fā)展。所以,BI數(shù)據(jù)分析將會(huì)逐漸變得越來越重要,隱私計(jì)算技術(shù)整體也會(huì)從頂層的企業(yè)逐步向下滲透?!?/p>
但是,BI的隱私計(jì)算面臨著巨大的挑戰(zhàn),主要有如下幾點(diǎn):
第一,高應(yīng)用性。剛步入數(shù)字化轉(zhuǎn)型或者正在數(shù)字化轉(zhuǎn)型進(jìn)程中的企業(yè),整體技術(shù)能力有限,高應(yīng)用性對于他們來說就格外重要。SQL是平常使用最多的數(shù)據(jù)分析語言,使用上手門檻相對較低,但這項(xiàng)技術(shù)本身是非常復(fù)雜的,MPC(多方安全計(jì)算)技術(shù)也是非常復(fù)雜的。那么,使用SQL語言完成MPC(多方安全計(jì)算)并保證正確運(yùn)行,則無論站在技術(shù)難度的角度,還是站在工作量的角度來講,都是一個(gè)巨大的工程。
第二,即時(shí)性。SQL數(shù)據(jù)分析采用交互的方式,與AI建模不同,雖然需要調(diào)參,但本身交互沒有那么強(qiáng)。但是SQL分析則需要頻繁交互,此時(shí)對整體的響應(yīng)速度和時(shí)間需求則更高,需要整個(gè)分析過程中都能夠及時(shí)響應(yīng),如此對整體性能的要求也會(huì)非常高。
第三,安全性。多方安全計(jì)算需要保證中間結(jié)果沒有任何信息泄露,而數(shù)據(jù)分析又需要看到每次交互的結(jié)果,并且需要通過頻繁交互的結(jié)果調(diào)整下一個(gè)環(huán)節(jié)。兩者之間天然存在矛盾。同時(shí),SQL的靈活性非常高,如何保證基于多方安全計(jì)算的SQL分析整體的安全性也是巨大的挑戰(zhàn)。隱語在這些方面提出了一些新思路,進(jìn)行一些嘗試和探索,也取得了一些成果,但是距離真正解決這些問題還有很長的路要走。
核心發(fā)布:隱語SCQL多方安全數(shù)據(jù)分析引擎
基于如此背景,王磊于開放日現(xiàn)場開源發(fā)布隱語SCQL多方安全數(shù)據(jù)分析引擎:
從技術(shù)上來看,隱語基于MPC技術(shù)內(nèi)核的底層抽象SPU設(shè)備,創(chuàng)新實(shí)現(xiàn)了一種多方安全數(shù)據(jù)分析系統(tǒng) SCQL。SCQL支持類 SQL 的查詢語言,它繼承了 SQL作為常用數(shù)據(jù)分析語言的普及性、易學(xué)性和高成熟度,同時(shí)還拓展了標(biāo)準(zhǔn) SQL 的語義,可以描述基于多個(gè)數(shù)據(jù)參與方的安全數(shù)據(jù)分析任務(wù)。
如圖是隱語SCQL的架構(gòu)示意,它是一種多方合作語言,大致分成兩個(gè)部分:上部稱之為SCDB,構(gòu)建了一個(gè)SCQL數(shù)據(jù)庫,可以認(rèn)為部分程度延續(xù)了一個(gè)傳統(tǒng)SQL數(shù)據(jù)庫的樣式。對于用戶來說,可以直接發(fā)起一條傳統(tǒng)SQL請求,請求首先會(huì)經(jīng)過Parser,轉(zhuǎn)為抽象的語法樹,再通過Planner成為Logical plan。這兩個(gè)模塊我們只做了少量的改動(dòng),基本也是基于開源技術(shù)。
最大的挑戰(zhàn)在Logical plan到Execution Graph的過程,傳輸過程實(shí)際是一個(gè)優(yōu)化的過程,原本他們之間的差異不大,但是在隱私計(jì)算場景,他們之間的差異就會(huì)變的非常大。Translator實(shí)際是進(jìn)行多約束條件下的最優(yōu)協(xié)議選擇,這件事的本質(zhì)是無論AI還是BI,隱語的整體設(shè)計(jì)理念是明密文混合,即在保證安全性的前提下,如能明文計(jì)算則盡量不進(jìn)行密文計(jì)算,因?yàn)槊芪某杀鞠鄬^高。在整個(gè)計(jì)算當(dāng)中有安全性的約束,同時(shí)會(huì)有數(shù)據(jù)類型、數(shù)據(jù)來源,還有數(shù)據(jù)狀態(tài),數(shù)據(jù)狀態(tài)還會(huì)隨著計(jì)算過程不斷發(fā)生遷移和改變,再加之每一個(gè)協(xié)議適用的模式是不同的。我們會(huì)根據(jù)所有這些約束,最終選擇一個(gè)最優(yōu)協(xié)議出來,這就是Translator的本質(zhì)。
那么怎樣理解最優(yōu)協(xié)議?如上圖舉例,此處有四種Group By,這四種Group By是為了適應(yīng)不同場景。第一種是明文Group By,當(dāng)密態(tài)計(jì)算時(shí),Group Key以及聚合表達(dá)式處于單邊,直接調(diào)用即可,一個(gè)典型的明文計(jì)算場景,無需密態(tài)計(jì)算性能很好;第二種是當(dāng)Group Key與聚合表達(dá)式分散在兩邊,但聚合函數(shù)是求和,此時(shí)可以使用同態(tài)求和Group By來實(shí)現(xiàn),只需將聚合列進(jìn)行同態(tài)加密后傳輸至Group Key列,就可以進(jìn)行聚合計(jì)算,性能也相對不錯(cuò);第三種是Vertical Group By,此時(shí)Key處于多方,這件事情變的更復(fù)雜,隱語提供了新的、非常高效的、非常巧妙的算法,可以將分布在多方的Group Key進(jìn)行高效的合并;最后,如果所有以上優(yōu)化都無法進(jìn)行,也就是純密態(tài)Group By,此時(shí)會(huì)以滿足安全性為前提,進(jìn)而選擇一個(gè)性能最好的協(xié)議。
Translator進(jìn)行優(yōu)化后,就會(huì)下發(fā)至下部的計(jì)算引擎,如圖展示三個(gè)party構(gòu)成,具體情況中兩方或三方,則與采用的協(xié)議有關(guān)。計(jì)算引擎會(huì)先將DB的數(shù)據(jù)讀出并進(jìn)行計(jì)算,圖中右下是SCQL計(jì)算引擎的架構(gòu),其中包含很多算子實(shí)現(xiàn),也是明密文的混合,明文計(jì)算直接使用Arrow進(jìn)行計(jì)算,密文使用隱語已經(jīng)開源的SPU,如果大家對隱語有了解,就知道兩個(gè)密態(tài)計(jì)算引擎完成這個(gè)計(jì)算。
Translator在進(jìn)行協(xié)議轉(zhuǎn)換時(shí)會(huì)執(zhí)行CCL檢查,其本質(zhì)上是數(shù)據(jù)擁有者可以對數(shù)據(jù)做約束定義,Translator轉(zhuǎn)換時(shí)就根據(jù)約束執(zhí)行檢查,如果SCQL不滿足安全約束條件,則會(huì)被禁止運(yùn)行。
左側(cè)是目前業(yè)內(nèi)常見的多方安全分析保障模型,如前文所講SQL是非常靈活的,解決安全性的問題無外乎兩種方式,一個(gè)是事前審核,二是事后審計(jì),事后審計(jì)很好理解,所有的執(zhí)行都需要存證。事前審核現(xiàn)在更多是通過人工,本質(zhì)把安全性責(zé)任完全拋給了用戶。
假設(shè)Party1寫一段SQL,此時(shí)因參與方是三方,所以Party2和Party3用戶都需要審核SQL,確認(rèn)沒有問題再執(zhí)行。這就產(chǎn)生兩個(gè)問題:第一,對于審核者來說工作量非常大,因?yàn)镾QL是頻繁交互的,且難免在審核中存在疏忽誤判;第二,還是與SQL的交互式相關(guān),每一個(gè)都需要多方審核,用戶的操作體驗(yàn)較差。
而CCL的作用如圖右,在事前審核之前,數(shù)據(jù)擁有方設(shè)置一個(gè)針對數(shù)據(jù)的CCL,是一次性的設(shè)置動(dòng)作,此后用戶每次提交SQL時(shí),都需先經(jīng)CCL檢查,確認(rèn)通過才會(huì)執(zhí)行下一步,否則被禁止不能執(zhí)行。接下來可以進(jìn)行事前審查,即可運(yùn)行至多方數(shù)據(jù)分析引擎中。
既然有CCL的安全性檢查,為什么需要事前審核這個(gè)模塊呢?因?yàn)?,此處需要?qiáng)調(diào)CCL不等于安全。與ACL相類似,不滿足CCL約束一定不安全,但是滿足CCL約束也不一定安全,所以CCL只是提供了輔助的工具。
CCL描述是一個(gè)三元組,數(shù)據(jù)擁有者對某一列進(jìn)行約束,針對某個(gè)參與方進(jìn)行約束。如Alice與Bob進(jìn)行數(shù)據(jù)分析合作,有三列數(shù)據(jù),設(shè)置CCL針對salary一列要求Bob參與者只有使用了聚合函數(shù)之后才可以看到。如此,Bob必須對salary列進(jìn)行聚合之后才可以看到結(jié)果且只能看到一個(gè)統(tǒng)計(jì)結(jié)果,不允許看到明晰列數(shù)據(jù),這就是CCL約束。
王磊也提到,此次SCQL發(fā)布的功能為Preview版本,雖然目前這些能力尚不完備,但Preview版本已經(jīng)能夠滿足很多的場景,并舉了幾個(gè)例子:
第一是營銷場景,提供輸出到文件的功能,仔細(xì)看即PSI求交。第二是用戶畫像,通過使用Group By,我可以對2做統(tǒng)計(jì),同時(shí)還支持Y條件,基于Y條件可以做跨表數(shù)據(jù)比較,以滿足用戶畫像場景需求。第三是在線策略,此前我們分享過保險(xiǎn)的場景應(yīng)用,這當(dāng)中就是在線線上實(shí)施施略。為什么是在線策略?如圖綠色可以看到,其顧慮是某一個(gè)ID,即在這一場景當(dāng)中,要查詢某一個(gè)人騙保概率以及騙保可能性,類似于風(fēng)控中判斷這個(gè)人的風(fēng)險(xiǎn),只針對這一個(gè)人,所以是單獨(dú)的查詢條件。據(jù)悉,隱語SCQL計(jì)劃會(huì)分別在6月、9月、12月開源更多能力。具體發(fā)版內(nèi)容則將基于社區(qū)對Preview版本的反饋建議,酌情調(diào)整優(yōu)先級。
現(xiàn)場除了隱語新版本核心開源發(fā)布,眾多來自業(yè)界和學(xué)界的多位嘉賓也進(jìn)行了主題演講。英特爾產(chǎn)品安全和保障部高級總監(jiān)郭偉、螞蟻集團(tuán)高級技術(shù)專家祝森林、浙江大學(xué)百人計(jì)劃研究員張秉晟、中國信通院云計(jì)算與大數(shù)據(jù)研究所高級業(yè)務(wù)主管袁博、中銀金科隱私計(jì)算實(shí)驗(yàn)室算法工程師石新蕾和廈門掌訊信息技術(shù)有限公司CTO王藝團(tuán),從技術(shù)和產(chǎn)業(yè)角度切入,帶來隱私計(jì)算前沿分享。
(完整回放及文字實(shí)錄歡迎前往「隱語的小劇場」公眾號獲取)
此外,來自北京郵電大學(xué)、廈門大學(xué)、浙江大學(xué)、廈門掌訊、Intel的社區(qū)之星也受邀來到開放日,任奎、深圳國家金融科技測評中心董事長鐘劍以及韋韜,為這些高校、企業(yè)isv用戶、行業(yè)企業(yè)的社區(qū)開放共建力量代表進(jìn)行現(xiàn)場表彰。?
關(guān)鍵詞: