个人信息、大数据与人权

文/国际特赦组织科技与人权顾问塔尼娅·奥卡洛(Tanya O’Carroll,及科技与人权研究员约书亚·弗兰科(Joshua Franco

每当你在网上浏览资料、购物,或是授权某项应用程序访问你的社交帐号时…… 你所交出的私人信息可能比你意识到的还要多,这些信息的范围可能从你的社交媒体及网络浏览习惯,到信用卡信息及联络方式等保密资料。

这份由国际特赦组织撰写的调查报告揭示,在美国于线下购买个人资料是何等的容易,出售这些信息的公司所处的法律空白地带,以及这些行为所引发的个人隐私担忧……我们不禁要问,类似的情况是否也在中国上演?

无论曾经身为总统候选人还是作为现任总统,唐纳德·特朗普(Donald Trump)均已表明其意在以国家安全为名推行针对穆斯林、难民及移民的严厉政策。在上任后的头一周,特朗普颁布了公然违法的旅行禁令,寻求禁止所有难民、及7个以穆斯林为主的国家的国民入境美国。同一周内,特朗普颁布的第二项行政命令,以及稍后出台的附随政策备忘录授予执法部门及移民机构更大的权力,令其加强对无证移民进行拘押及驱逐出境。

将来的情况如何尚未可知,但总统的种种声明的确让我们有了严重担忧的理由。众所周知,特朗普拒绝排除建立“穆斯林注册”(Muslim registry)系统的可能性,他亦宣称,计划将2至3百万名无证移民迅速驱逐出境。

发起反对特朗普计划的人在很大程度上认为,任何大规模的资料收集工作仅仅意味着在大范围内进行资料的收集。而成百上千名在推特(Twitter)上以 #RegisterasMuslim 标签发推的人承诺,若美国政府推行这一政策,他们将会注册为穆斯林,前美国国务卿马德琳·奥尔布赖特(Madeleine Albright)亦是其中一员

然而,团结一致进行注册的抗议可能无法奏效,原因在于,所谓的“穆斯林注册”极有可能是一个类似于“国家安全出入境登记系统”(National Security Entry-Exit Registration System,简称NSEERS)的歧视性系统,这一系统于前总统布什(Bush)执政时期实施,对来自24个以穆斯林为主的国家及朝鲜的人实施“特别注册”(Special Registration)。

然而,或许“穆斯林注册”系统,抑或说实为驱逐目标名单,未必包含任何注册程序。

过去10年见证了大数据的迅速发展。个人数据的庞大规模以及数据挖掘技术的发展意味着,数以百计的美国公司目前拥有包含数亿客户信息的“超级数据库”,这些信息可以对客户实行个体识别。
terms and conditions

我们现在谈论的不仅仅是世界范围内有关谷歌(Google)和脸书(Facebook)的公司,这是你或许从未听说过的公司,但是他们的工作就是要了解你。每当你使用信用卡或借记卡、在手机上启动无线网络、在网上浏览新闻、在条款与条件框中打勾、授权某项应用程序访问你的社交帐号、填写调查问卷、或是购物时,都有可能有一家甚至是好几家公司正在夺取你的资料。

假如美国总统真想建造一个对美国境内每一名穆斯林进行注册的系统,或者我们说他的目标是,作为重在驱逐无证移民的严厉新移民政策的一部分,他想要知道应将哪些住户当作目标。那么,在2017年,对于他来说,在不对个人进行正式注册的情况下收集这类资料会有多容易呢?

购买个人资料有多容易?

资料以多种形式被购买及出售,买卖主体多样。这些资料从人口资料到更为复杂的产品都有,例如建立在消费习惯或已知财务风险基础上的预测信息和个人档案。在讨论技术上的可能性及某些现代数据分析技术造成的人权侵害风险之前,何种资料已能从网上广泛获取是值得了解的问题。

ExactData.com网站上,只需用鼠标点5下,我们便能看到一个对话框,指示我们下载1,845,071名美国境内穆斯林的资料需要付出的价钱。

只要支付138,380美元,就可获得该网站提供的数据库文件,当中包含逾180万人的姓名、地址、所在城市、州及邮政编码。这意味着每一人的资料仅售7.5美分。
shopping

ExactData.com网站标榜自己的数据库总共拥有两亿美国人的资料,可透过450个词组进行筛选,这些词组涵盖的类别包括“宗教”、“种族”,以及诸如“家庭收入”及“车辆型号”等私人信息。

该网站同时提供一系列预先设置好的联系人列表,其中包括“拥有波斯尼亚穆斯林姓氏的美国人”,以及“未被同化的拉丁裔美国人”

shopping2

该网站唯一未提供的信息是这些名单是如何制作而成的。无论人们是否曾点击“OK”,同意初始的信息收集,我们怀疑他们当中有多少人知道,这些信息会如何在某天使他们被列入其中某项名单内。

美国有数以百计以收集并出售私人信息为业的私营公司,ExactData.com只是其中之一。这些公司通常被称作“数据代理商”,出售一系列服务,涵盖 “潜在客户开发”、“预测分析”到“背景调查”及“私人情报”(“想要对你的约会对象有更多了解?”服务提供了一个名为Spoke的公司)。

并非所有公司的服务都像直接下载名单那样简单,但许多公司都出售这类信息。Nextmark是一个提供各类名单的信息库,若在该网站上进行搜索,会发现数个有关“穆斯林”的条目,其中包括由Sprint Data SolutionsE-Tech等其他数据代理商提供的名单。规模较大的公司益百利(Experian)是全球最大的数据代理商之一,该公司的名单目录包括“伊斯兰教”与其他11个宗教,能够提供“181个详细分类的种族”。

这还仅仅是这些公司在网上出售的资料。这些公司究竟能够看见多少与我们有关的资料啊?

一家数据分析公司同意向我们提供其数据库中“穆斯林”的数目,但该公司要求匿名。这家公司告诉我们,它们拥有可进行个体识别的、370万穆斯林的资料,模型构建的基础包括调查数据、消费者行为信息、投票数据,以及有关美国境内宗教信仰的地域分布信息。该公司相信,这些有关“穆斯林族群”(意为信仰穆斯林的人或在伊斯兰信仰中成长的人)之信息的“准确率是85%”。

370万这个数字是ExactData.com网站提供的资料数量的一倍多,略微高于皮尤研究中心(Pew Research Centre)2015年所估计的美国境内的穆斯林总人数。

当然,这类资料也有良性的用途。Sprint Data Solutions公司提供的一份穆斯林捐赠者名单宣称,“这份文件在向中东提供救援方面产生了伟大的成果。”

然而,将如此大量的个人信息收集起来很明显会带来巨大的风险,这些信息的使用也存在着诸多潜在的危险。美国人口调查局(Census Bureau)自20世纪50年代起便已不再询问有关宗教的问题;原因正是这一问题涉及私人及敏感信息。

个人信息交易市场

市场对于大数据及在此基础上的预测分数与分析的需求令数据代理及消费分析行业日益发展。大数据对大量数据的分层与混合必不可少,这种分析方法将所有或大量分散的消费者相关信息集中起来,这些信息可包括社交媒体信息、互联网浏览历史、财务或购买历史、工作经历、社会保险、犯罪纪录、法庭记录、信用报告、住宅及手机电话号码、地址及驾驶记录等资料。

诸如安客诚(Acxiom)益百利(Experian)帕兰提尔(Palantir)等跨国公司是这项产业的巨头,它们的名号在美国不一定家喻户晓,但它们的业务却是了解每户美国家庭的私密信息。安客诚称自己“收集并拥有的消费者信息库几乎囊括了美国所有家庭。”益百利拥有一个著名的信用资料库,亦“通过利用包含2.35亿美国消费者资料的数据库”提供市场营销服务。

这类数据库构成助长歧视的风险。鉴于数据库并不完善,它们亦引发了其他问题。

一位拥有多年商业数据空间经验的资深人士(在匿名的情况下)告诉我们,“整个数据产业都依赖于误差幅度。将各种数据集与特定个人进行配对的技术尚不完善,也很容易出错。这样的错误集中发生于同名概率更高的族群中,西班牙和拉丁美洲裔首当其冲,其次是穆斯林。”

在我们所接触的数据代理商中,至少有一部分似乎并不那么担心这些“误差幅度”可能造成的影响。我们向3家在电邮中给出报价的代理商去信,询问其可否出售加利福尼亚州“无证移民”名单。两家公司回复了我们,其中一家表示,尽管遗憾的是“我们无法获知他们的确切身份,但可以生成一份与你的需求十分接近的名单,我们可以通过种族及/或人种及其偏好的母语来确定来自不同国家的人。”

另一家公司回复我们可以提供加利福尼亚州“无证移民”名单,他们相信这份名单包含“百万余项纪录。”当我们回信询问这份名单的准确度时,公司经理回答道:

在美国仇外情绪与仇恨犯罪上升的情况下,一些公司准备出售“无证移民”名单无疑是有问题的。不过,当美国政府的执法部门及移民机构取得这些资料并照此采取行动时会有什么情况发生,亦是值得探究的问题。
response

法律是如何规定的?

数据代理似乎处于法律的空白地带。法律或宪法所赋予的隐私保护普遍不适用于数据代理,尤其是在该服务为执法部门所使用的情况下。

当我们询问另一位数据产业的资深人士(亦要求不透露姓名),他们受到何种法规规制时,我们得到的回答是:“情况有点像西部世界(Wild West)。”

应当适用的法律普遍充斥着例外规定。例如,1974年的《隐私权法》(The Privacy Act)对政府收集、使用、以及管理个人信息做出了规定,然而,该法仅适用于联邦机构(不包括州和地方层级),并且,仅适用于这些机构建立自己的“档案系统”,不包括其仅仅在私人企业的协助下获取这些档案。此外,该法亦只适用于美国公民和永久居民。国土安全(Homeland Security)政策将《隐私权法》中对于某些政府信息的保护延伸至其他非公民团体,然而,在对加大移民打压力度的预期中,这一政策在上周被撤销

这种法律空白多年来受到批评,在奥巴马(Obama)总统任期,甚至连白宫都曾对其带来的隐私问题提出关切。2015年,4名民主党议员准备制定新的《数据代理责任及透明性法案》(Data Broker Accountability and Transparency bill),却并未取得多少进展。提出这项法案的参议院议员艾德·马基(Ed Markey)指出,“我们需要弄清这一暗中收集资料的‘影子’产业,它已收集了数亿美国人的私密档案。”

围绕美国国家安全局等机构实施政府监控的合法性及合宪性所展开的争论从未中断,这或许使人有理由推定,美国宪法对政府机构从商业代理商处获取资料做出了限制。在大多数情况下,事实却并非如此。

按照美国最高法院数十年前建立的“第三方原则”(third-party doctrine),在个人自愿将资料交予第三方的情况下,不享有对于隐私的合法期望。换句话说,一旦你的资料因某一目的被合法收集,这份资料便可被他人以几乎任何其他目的再利用或再出售。因此,政府机构通过从不受相关限制的公司那里购买(或要求)资料,便可规避用于限制其收集个人资料的法律。

上文我们所访谈的第一位资深数据产业人员说道,“美国执法部门和情报机构从这类公司那里获取数据文件,用以掌握美国的人口情况,这在某种程度上已是公开的秘密。”

举其中一例,国家安全局或其他按第12,333号行政命令实施监控的机构本不应有意地收集“美国人”的信息,或将此种信息同国内执法部门共享。然而,该原则的诸多例外规定意味着,实际上大量有关美国人的信息得以收集并共享,其中的一个例外为“通过订阅或购买的方式向公众公开”的信息。也就是说,如果国家安全局能从数据代理商那里买到美国人的信息,它们便能与联邦调查局及其他国内执法机构共享这一信息。

私营数据代理商与政府的关系良好,且建立已久,一些数据代理商还拥有数千来自执法部门的客户。正如Choice Point公司(后被励讯集团,RELX Group收购)的副总裁在2005年所说,“我们的工作的确像情报机构一样,收集数据,并对此进行分析。”

乔治城(Georgetown)大学的法学教授保罗·欧姆(Paul Ohm)写到,“在我们的脑海中,执行监控的联邦调查局特工的形象是在路边的白色面包车里戴着耳机,将电话线用鳄鱼夹别在胸前,与一名身穿白袍的联邦调查局科学家一起工作,然而这样的形象很快便会改变,取而代之的是一名坐在办公室里的特工,点击着网络浏览器的刷新键,阅读成堆私人企业发来的最新日志文件。”

这样的合作关系已经引发对于人权的深切忧虑,而在私营部门的数据挖掘技术加速发展情况下又会发生什么呢?

当数据变得聪明:大数据分析可以揭示特朗普当局的哪些信息?

1月下旬,一篇发表在Motherboard网站上的文章介绍了一家规模相对较小的公司,名叫剑桥分析(Cambridge Analytica),该公司总部位于伦敦,曾与唐纳德·特朗普有过合约,为其竞选提供帮助。特朗普的首席策划师斯蒂芬·班农(Steve Bannon)直到近期才被发现身为剑桥分析的董事会成员,同时,该公司拥有亿万富翁投资人罗伯特·默瑟(Robert Mercer)的资金支持,后者的女儿是特朗普政府过渡小组的成员之一。
analytics

剑桥分析的网站上,该公司声称自己“拥有涵盖逾2.2亿美国人的国家数据库”,并且,“与每一个人相关的数据点均有4至5千个”。在他们的Youtube频道中,一段题为“竞选运动的未来(The Future of Political Campaigns)”的视频这样描述该公司的业务:

“多数代理商利用性别及婚姻状况等人口统计资料、邮政编码等地理信息、以及生活支出等消费心态学来帮你确定受众,但剑桥分析不一样,我们收集整理你的资料,再将之与我们的资料进行配对……我们增加了一层个人数据,并将之具体化到个体层面。我们亦按照共同特征对人群进行分类,这使我们对关联性的分析更为深入和智能化,在此基础上,我们能对潜在客户进行精确定位,令你传达正确的信息。”

公司总裁亚历山大·尼克斯(Alexander Nix)在英国广播公司的电台采访中提到,剑桥分析运用大数据“集合一切……你能找到的数据点……社交媒体数据、交易数据、消费者及任何其他种类的数据均融为一体。”随后,公司将这些数据与他们自身拥有的预测性人格模型结合在一起,这些模型建立在一系列脸书(Facebook)运算法则的基础上,为每个人设定了一种人格,诸如外向或是冲动。

这比许多数据代理商所出售的、以名单为基础的文件更先进。先前的模型对谁是“穆斯林”的预测建立在十分生硬的指标之上,例如,将穆斯林姓氏与已知特定种族或民族群体人群相对集中的地理位置进行配对。不过,机器学习技术的发展以及综合数据集的增加,使对宗教甚至法律地位等属性做出高度精确的预测成为可能。

保罗·欧姆教授告诉我们,导致这一问题的部分原因在于“隐私的损害可能以意想不到的方式接连发生。”他的意思是,甚至那些看似并非你个人独有的信息都有可能暴露大量私人信息。他在文章中举出许多例子,其信息被研究人员认为可能暴露个体身份,其中包括对影片的偏好或在互联网搜索的问题,欧姆教授指出,从貌似匿名的数据推导出特定身份的技能可能会严重损害美国的隐私保护法律,这些法律通常将数据的匿名化认定为防止隐私侵害的保护措施。

米加·科辛斯基(Michal Kosinski)是斯坦福大学的研究员,正是他首次提出了剑桥分析现声称使用的预测性人格模型,他向我们解释了如何在数据足迹的基础上对人做出预测:

“我不了解剑桥分析的模型有多精确,但我自己也在从事这类研究,我可以说,基于状态更新、脸书点赞、及其他社交媒体信息建立一个对宗教信仰进行预测的模型轻而易举,我在笔记本电脑上便可做到。而且,身为学者,我能获取的数据还是有限的。如果你有一整个数据科学家团队,还能从其他公司那里购买数据,可以想象,这是很容易办到的:他们会有更多数据、更多私密信息,以及更强的计算能力。”

换句话说,在国籍、种族、社会保险号等与我们有关的资料中,我们不能只考虑哪些敏感信息被明确地编码,我们还应考虑,哪些敏感信息能从这些资料中推断出来。现代机器学习技术能够从互不相干的数据中构建出惊人的信息,从而揭示出之前得以隐藏的私密特质,诸如宗教、法律地位、性取向、政治立场,这些都是我们在过去至少能在某种程度上选择保密的信息。科辛斯基解释道:

“在谈到数据足迹的时候,人们通常会把它想成:如果你经常访问穆斯林网站,我们可能会猜测你是穆斯林,但情况并非如此。现在,我们可以访问你在Spotify网站上的播放清单,通过你所听的歌曲对你的穆斯林身份做出准确度极高的预测。你不必在网络上显示与某一政党的关联,运算法则同样可以对你是共和党抑或民主党人做出推断。通过在足够大型的数据集基础上建立的运算法则,我们可以从你的脸书点赞模式中得出这一信息。”

对于那些掌握着获取我们资料的钥匙的公司,机器学习的技术开启了无尽的新可能性,这也是这一产业发展如此迅速的原因之一。各公司竞相获取与我们每个人有关的数据,并将这些老是分散的、浩如宇宙的数据联结起来。我们所访谈的第3名(同样希望匿名的)数据和营销业从业人员这样描述这一过程:每一次,某家公司将两个包含你的相关信息的领域(例如,关于你邮箱地址的数据和关于你在YouTube网站上活动的数据)联结起来,“这是机器学习技术的一部分,就像是尼奥(Neo)把功夫程序安装到矩阵(Matrix)中。”

据媒体报导,剑桥分析(及其母公司SCL集团)可能会与白宫签署新的合约,在个人信息的收集和使用方面缺乏法律规定或伦理指南的现状令人担忧。

我们向一家访谈对象公司询问,从理论上讲,他们能否运用已有的数据构建出一个识别非正规移民的模型,该公司答复称自己绝不会接受这样的合同,但认为“这一大体概念是可行的”。此外,他们表示,这样的运作会导致“误报”,即合法的居民和公民会被错误地列入这一名单。

特朗普政府会为了制定移民政策而利用商业数据集进行“人口定位”吗?或许会的。但无论商业公司可以贡献什么信息,有一点是确定无疑的:当这些信息被政府融合进移民及执法数据库时,它们便会变得更加细致具体。

分析公司与数据代理商亦负有人权及数据伦理责任

高新技术行业普遍批评特朗普的旅行禁令。在2月的头一周,包括谷歌、脸书、苹果(Apple)及微软(Microsoft )在内的97家公司联合发表意见书,支持对特朗普的移民令提起诉讼。

近3千名高科技专业人士采取了行动,其中包括联署保证书,承诺拒绝参与建造歧视性的数据库。国际特赦组织为本次调查所检视的数据代理公司中,有6家公司的员工做出了这一承诺。

媒体报道,包括安客诚、预测未来(Recorded Future)及科络捷(CoreLogic)在内的一些数据代理商已明确表态,表示自己不会协助建造穆斯林注册系统。

然而,分析及数据代理行业是一个由数据流组成的大型生态系统,对于当局来说,只需同一间小至中型公司合作,便可获取十分具体的、有关美国境内穆斯林或移民的详细资料。

况且,据我们所知,特朗普及其身边的人已与数家公司交好。除特朗普政府与剑桥分析的关系外,帕兰提尔公司总裁彼得·泰尔(Peter Thiel)亦是总统过渡小组的一员。帕兰提尔的总裁曾公开表示,公司未被要求建造穆斯林注册系统,且“即使被要求,也不会照办。”但是,该公司与美国移民及海关执法局(Immigration, Customs and Enforcement Agency)签有数百万美元的合同,其中包括营运并维护一个对大量个人信息进行核对并分析的系统,这些信息不仅来源于政府记录,亦包含通过商业途径获取的信息及开元信息。

我们也许无法预测将来会发生什么,但人权所面临的威胁无疑是巨大的。和所有企业一样,数据代理商及数据分析公司负有尊重人权的责任,这意味着,它们需确保不会造成或促成人权侵害现象的发生。

这也正是国际特赦组织同其他16家组织联合向美国50余家数据代理商和分析公司致信的原因所在,这些公司是这一市场的代表。

我们呼吁这些公司公开他们为确保不违反数据伦理或促成人权侵害现象所采取的措施,并做出承诺,不会允许他们的数据或服务被当局用作侵犯人权的目的,尤其是不被用于侵犯穆斯林或移民的人权,这些群体的权利已经面临明显的威胁。

我们联系了报告提及的多家公司,希望得到它们的意见。我们在报告发表前所收到的唯一回复来自SCL/剑桥分析,该公司发言人表示:

“我们感到很困惑,为何作者在一篇与本公司无关的文章中将本公司包含在内。我们亦对该文对于本公司的歪曲描述表示遗憾。”