研究顯示 匿名數(shù)據(jù)可能不那么匿名

2019-07-28 14:37:20    來源:    作者:

去識(shí)別數(shù)據(jù)是現(xiàn)代營銷和科學(xué)研究的基石。

利用機(jī)器學(xué)習(xí),研究人員估計(jì)了可以從匿名數(shù)據(jù)中重新識(shí)別特定人的可能性。

研究表明,幾乎所有美國人都可以根據(jù)15個(gè)人口統(tǒng)計(jì)特征進(jìn)行重新識(shí)別。

研究:99%的美國人可以從匿名數(shù)據(jù)中重新識(shí)別

我們都做到了:在線注冊(cè)帳戶時(shí),我們點(diǎn)擊“我同意”將我們的數(shù)據(jù)出售給第三方。它將是匿名的,我們保證,只有一小部分?jǐn)?shù)據(jù)可供其他人使用。

但是,我們的個(gè)人數(shù)據(jù)無法追溯到我們,這有多安全?這是比利時(shí)Universitécatholiquede Louvain和倫敦帝國理工學(xué)院的一個(gè)研究小組試圖回答的核心問題。

結(jié)論是 - “不是很好”。

利用機(jī)器學(xué)習(xí),研究人員開發(fā)了一個(gè)系統(tǒng)來估計(jì)從包含人口統(tǒng)計(jì)特征的匿名數(shù)據(jù)集中重新識(shí)別特定人的可能性。研究人員的模型表明,超過99%的美國人可以使用15個(gè)人口統(tǒng)計(jì)特征從任何數(shù)據(jù)集中正確地重新識(shí)別,包括年齡,性別和婚姻狀況。

“雖然可能有很多人在三十多歲,男性和居住在紐約市,但是他們?cè)?月5日出生的人中,他們駕駛的是一輛紅色跑車,還有兩個(gè)孩子(兩個(gè)女孩)和一只狗,“Lucvher說,他是魯汶天主教大學(xué)的博士候選人,也是該研究的主要作者。正如CNBC先前報(bào)道的那樣,個(gè)人數(shù)據(jù)可用于研究,非法活動(dòng)甚至投資。

他們的論文“估計(jì)使用生成模型在不完整數(shù)據(jù)集中重新識(shí)別的成功”發(fā)表在Nature Communications雜志上。他們的研究結(jié)果表明,常用的匿名工具,如添加噪音和抽樣數(shù)據(jù),可能不足以跟上歐盟GDPR和加州消費(fèi)者隱私法等親數(shù)據(jù)隱私法。

研究人員寫道,結(jié)果“質(zhì)疑當(dāng)前的去識(shí)別實(shí)踐是否滿足現(xiàn)代數(shù)據(jù)保護(hù)法的匿名化標(biāo)準(zhǔn),如GDPR和CCPA。”

作為他們研究的一部分,三人組合發(fā)布了一個(gè)在線工具,幫助人們了解重新識(shí)別它們的可能性,僅基于三個(gè)常見的人口統(tǒng)計(jì)特征:性別,出生日期和郵政編碼。研究人員說,平均而言,根據(jù)這三個(gè)數(shù)據(jù)點(diǎn),人們有83%的機(jī)會(huì)被重新識(shí)別。

“匿名化的目標(biāo)是讓我們可以利用數(shù)據(jù)造福社會(huì),”研究人員之一Yves-Alexandre de Montjoye說。“這非常重要,但不應(yīng)該而且不必以犧牲人們的隱私為代價(jià)。”

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。