掃二維碼與項目經理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯(lián)網交流
隨著用戶自身隱私保護意識的提升和《數據安全法》、《個人信息保護法》等國家法律法規(guī)的陸續(xù)施行,如何在收集、使用用戶數據的過程中保障用戶的隱私安全、滿足監(jiān)管要求,成為了挑戰(zhàn)性的問題。在互聯(lián)網廠商的日常業(yè)務中,常見的用戶隱私泄露場景有:

創(chuàng)新互聯(lián)是一家專業(yè)提供東川企業(yè)網站建設,專注與網站設計、成都做網站、H5建站、小程序制作等業(yè)務。10年已為東川眾多企業(yè)、政府機構等服務。創(chuàng)新互聯(lián)專業(yè)網站設計公司優(yōu)惠進行中。
(1)數據統(tǒng)計查詢: 對用戶數據進行統(tǒng)計查詢的結果直接向客戶返回(如客群洞察等業(yè)務),存在通過差分攻擊從統(tǒng)計結果中獲取個體信息的可能性。
例如,某互聯(lián)網公司為外部客戶提供客群畫像服務,客戶分別查詢群體 A 和群體 B(群體 B 與群體 A 相比,僅多出一名用戶甲)的居住地分布,如果第二次查詢結果中居住在南京鼓樓的人數比第一次報告中多 1,那么可以推斷出甲的居住地在南京鼓樓,泄露了甲的隱私信息。
(2)用戶數據采集: 手機 APP、移動終端通常會采集多種用戶信息(如地理位置,健康狀態(tài)等)以提升服務質量和用戶體驗。然而,直接采集可能會導致用戶隱私的泄露,同時也受到法律法規(guī)的嚴格限制。
例如,用戶甲在某??漆t(yī)院看病時打開了位置定位,互聯(lián)網廠商通過收集用戶甲的地理位置,可能會推斷出用戶甲患有某種疾病,從而造成用戶甲的隱私泄露。
因此,對于廣大互聯(lián)網廠商來說,研發(fā)高質量的隱私保護服務,以解決統(tǒng)計發(fā)布、數據采集等場景中的用戶隱私泄露問題,同時保證數據的可用性,從而滿足監(jiān)管要求,為業(yè)務賦能,成為了重要的工作。
傳統(tǒng)的隱私保護手段往往通過解耦、泛化等方法去除用戶記錄的標識符信息(如姓名、身份證號、設備 ID 等),或通過匿名化技術(如 K-匿名、L-多樣性等)對用戶記錄的準標識符(如街道、郵編等)進行泛化、壓縮,使得攻擊者無法直接或間接地把處理過的數據與用戶準確地重新關聯(lián)。然而,傳統(tǒng)方法的安全性與攻擊者所掌握的背景知識密切相關,并且難以對隱私保護水平進行定量分析。例如上文中的查詢場景,由于攻擊者有背景知識存在(知道員工甲是否在查詢范圍中),傳統(tǒng)的匿名化方法無法起到預期的作用。
為解決這些問題,差分隱私(Differential Privacy,簡稱 DP) [1]技術應運而生。該技術提供了一種嚴格、可證明的隱私保護手段,且其保護強度不依賴于攻擊者所掌握的背景知識。由于這些特點,差分隱私一經提出便得到了學術界和工業(yè)界的廣泛認可和應用。特別地,差分隱私的通用定義為:
則稱算法 M 提供 ε-DP,其中 S 是由算法 M 所有可能的輸出構成的集合,參數 ε 稱為隱私預算。通過調整隱私預算 ε 的取值,可以控制差分隱私保護的程度。ε 越小,添加或刪除一條記錄對結果的影響程度越小,隱私保護強度也就越大,計算結果的可用性越低,反之亦然。因此,在實際應用中,根據不同場景和需求,設定合理的 ε 取值以達到隱私保護和數據可用性之間的平衡,是差分隱私技術應用的關鍵問題之一。
為了解決查詢統(tǒng)計以及用戶數據采集場景中隱私泄露問題,火山引擎安全研究團隊基于差分隱私技術,依托自研的 Jeddak 數據安全隱私計算平臺,分別研發(fā)了面向查詢保護的 DPSQL 服務(Differentially Private SQL Query Service)以及面向采集保護 LDPDC 服務(Locally Differentially Private Data Collection Service),在保障查詢和采集過程中用戶隱私的基礎上,實現了數據的高可用目標。以下分別對兩個服務進行介紹。
DPSQL 采用中心化差分隱私(Centralized Differential Privacy,簡稱 CDP,適用于數據管理者可信的場景)[1]模式,以中間件的形式接收 SQL 統(tǒng)計查詢請求,返回滿足差分隱私的查詢結果。由于現實場景中查詢請求的多樣性,DPSQL 服務構建面臨以下關鍵挑戰(zhàn):
以下將從服務架構和關鍵設計兩個方面闡述 DPSQL 的應對措施,并對落地應用進行簡要介紹。
DPSQL 服務包含三個組件:
一個典型的查詢請求處理流程如下:
首先,核心服務接受客戶提交的 SQL 查詢語句,對該語句進行解析和重寫,以便于計算隱私噪聲(如將 AVG 計算改為 SUM/COUNT);
然后,核心服務調用元數據管理服務,計算重寫后的 SQL 查詢所對應的數據表敏感度,同時在數據庫上執(zhí)行重寫后的 SQL 查詢,得到原始的查詢結果;
最后,核心服務調用隱私預算管理服務得到為該查詢分配的隱私預算,并結合敏感度在原始的查詢結果中添加噪聲并返回。
針對前文所述 SQL 方言兼容以及查詢噪聲計算的挑戰(zhàn),團隊在 DPSQL 中實現了多源異構的 SQL 解析與重寫機制,以及自適應的 差分隱私加噪機制。
目前,DPSQL 服務已接入火山引擎的客戶數據平臺,為銀行、車企、零售等行業(yè)客戶提供隱私保護的用戶群體洞察服務。
LDPDC 服務以本地化差分隱私(Local Differential Privacy)[2]為核心技術,為用戶提供端上的 LDP-SDK,實現端上的數據的擾動處理。同時,配套提供了服務端的計算服務,對 LDP-SDK 采集的數據進行匯總分析。同樣地,LDPDC 面臨以下挑戰(zhàn):
同樣的,以下從服務架構和關鍵設計兩個方面闡述 LDPDC 的應對措施,并對落地應用進行簡要介紹。
LDPDC 服務兩個模塊構成:
客戶端:內置 LDP-SDK,包含個性化的擾動機制,用以接受用戶個性化的隱私保護需求設置,并據此對用戶數據進行擾動處理,從而為用戶提供差分隱私保護;
服務端:收集匯總客戶端傳輸的數據,提供定制化的降噪聚合機制,用于對匯總的數據進行降噪聚合處理,提高數據可用性。處理后的數據可應用于推薦系統(tǒng)、統(tǒng)計查詢、機器學習等數據分析服務;
針對端上擾動和匯聚噪聲降低的挑戰(zhàn),LDPDC 設計了個性化的擾動機制和定制化的降噪聚合機制。
目前,LDPDC 服務將開始在地理位置采集等服務中進行應用,輔助業(yè)務部門對于用戶信息采集進行合規(guī)治理,為廣告推薦等服務提供策略支持。
DPSQL 服務和 LDPDC 服務是差分隱私技術在火山引擎實際應用場景中的成功實踐。未來,差分隱私相關服務將出現在火山引擎云安全系列產品矩陣中,服務于火山云客戶?;鹕揭姘踩芯繄F隊將繼續(xù)探索業(yè)務場景,深入挖掘用戶數據隱私保護需求,研究前沿隱私保護技術的落地應用,為用戶的數據隱私安全提供強力保障。
[1] Dwork C., Mcsherry F., Nissim K., et al. Calibrating Noise to Sensitivity in Private Data Analysis [A]. Theory of Cryptography, Third Theory of Cryptography Conference, TCC 2006, New York, NY, USA, March 4-7, 2006, Proceedings: 265–284.
[2] Kasiviswanathan S.P., Lee H.K., Nissim K., et al. What Can We Learn Privately? [A]. 49th Annual IEEE Symposium on Foundations of Computer Science, FOCS 2008, October 25-28, 2008, Philadelphia, PA, USA: 531–540.

我們在微信上24小時期待你的聲音
解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯(lián)網交流