隐私交易所

大数据发展了10年,AI也重新火爆起来,整个行业背后都是数据和算力的角逐。互联网公司的快速崛起,就得益于其服务能力的天然数据采集器,也是天然算力整合平台。能和互联网匹敌的,现在只有金融科技公司,他们的爬虫时刻关注着世界经济的每一个市场事件,甚至调动天上的卫星监控农场里的牲口数量。当全世界都在数据里掘金的时候,似乎数据的拥有者被忽略了。天下没有新鲜事,社会总是不断循环的前进。让我们先回顾一下百年前加利福尼亚的淘金历史,从茨威格的书《人类的群星闪耀时》里寻找启迪。

淘金的故事

1834年,一艘轮船从法国的哈弗尔开往美国的纽约。船上载着数百名逃亡者,瑞士人约翰·奥古斯特·苏特尔就是其中的一员。为了谋生、发财,苏特尔做过各式各样的工作,不断改变自己的身份,在不同的城市迁徙。他在纽约开过客栈,在密苏里经营农场,最后受到西部大开发热潮的影响,决定去加利福尼亚。

1837年的一天,苏特尔将所有的财产都变卖后组织了一支探险队。包括两名军官、五名传教士和三名妇女一起坐在牛车上,前往他们魂牵梦萦的加利福尼亚。他们穿过草原,搭上帆船,经过千辛万苦,终于在1838年抵达圣弗朗西斯科。但原来的伙计们早已各奔前程:两名军官在路途中就已经退出,五名传教士经过温哥华时停留下来想过稳定的生活,而三名妇女则在半路被活活饿死。现在,苏特尔成了孤家寡人。当时,那里是西班牙的殖民地,并因西班牙政局不稳而缺乏管理。经过仔细考察,苏特尔脑中逐渐行了对这个破旧小渔村的开发计划。他来到首府蒙德来,向阿尔瓦拉多总督请求建设圣弗朗西斯科。苏特尔凭借其三寸不烂之舌,得到了圣弗朗西斯科的开发权,租期为10年。

1839年,苏特尔的开发工作开始了。正如苏特尔想的那样,收获的季节到来时他们已经硕果累累。不可思议的是,即使是同样的种子,他们的农作物产量也是其他地方的五倍。仓库里堆满了粮食,豢养的牲畜更是数不胜数。苏特尔终于美梦成真,成了一个大富翁,建造了很多气派的房屋和美丽的庄园。

1841年,联邦政府在梳理早前为了管理土地分配而颁布的《西北法案》亦称《1784,1785暨1787年法令》。当时大量的领土都在殖民者手中,该法令规定了精确测量及系统划分西北地区土地的办法,并奠定了建立地方政府和建州加入联邦的基础。下图罗列的几个州都是该法案生效后建立的。法令中关于矿业的条款规定政府可以保留三分之一的金、银、锡和铜矿资源。但在1841年新颁布的《优先权法案里》,又排除了这个部分。
NT1787

1847年美墨战争后,曾经西班牙传教士管理的西海岸这片领土由美国和墨西哥分治。墨西哥所得到的那部分领土后来成了下加利福尼亚省(Baja California)。而美国所获得的上加利福尼亚则在1850年9月9日根据《西北法案》正式加入联邦,成为今天的加利福尼亚州,包括苏特尔的庄园。

1848年1月,苏特尔庄园锯木厂木匠詹姆斯·威尔逊·马歇尔突然激动地跑到苏特尔家里,说他昨天挖土时发现这种奇特的金属。他相信这是金子,但其他人都嘲笑他。他们再次认真检查水下的泥沙,把泥沙放到筛网里,在水里轻轻摇几下,黑色的筛网上就出现了一层金光闪闪的黄金颗粒。这里的确有黄金,而且是大量轻而易举就能得到的黄金。 纸包不住火,不论苏特尔如何保守秘密,最后还是被全美洲的人都知道了黄金的所在。人们发疯似的从四面八方赶来,一切都陷入了混乱。矿工们在这里看不到篱笆,看不到土地测量员,也看不到法律。对这群乌合之众来说,他们只相信强权。如果真要严格按历史法令行事的话,这些人都是非法入侵者。但当时法不责众,联邦的执法缺失,导致黑矿条例成了当地的新法律。

1849年加州出现了800多个分离的、非正式司法管辖区,每个管辖区都有自己的章程。诉讼人因此可以在采矿权、水源权之类的纠纷上引用风俗习惯作为证据。科罗拉多和其他各州加以效仿,对矿区的传统表示尊重。但苏特尔的王国被摧毁了,他的奶牛被随意宰割,粮仓被任意拆除,农田被肆意践踏,机器被随便破坏。仅仅一夜之间,苏特尔的财产被洗劫一空。矿工们全都把自己当成了苏特尔土地的主人,夜以继日地在这里挖掘黄金,从来没人想到要向苏特尔通报一声。

1850年,加利福尼亚正式并入美利坚合众国的版图,成为美国的一个州,并开始被严格有序地管理。在政府的严格治理下,它的混乱局面得到极大改善,这个遭到黄金摧残性破坏的地方重新变得秩序井然。无政府状态告终,一切又都置于法律的掌控之下,淘金热也不断降温。苏特尔在偏僻山区安顿好自己第二个庄园后,也开始正式通过诉讼来维护自己的权利。他向州政府索赔的赎金高达2500万美元,理由是他私人出资修建的道路、水渠、桥梁、堤堰、磨坊等已经成了公共设施。其次,所有从他土地上挖掘出来的黄金,都应该分他一份,因为那些黄金原本就属于他。

1855年3月15日,这场史无前例的审判终于落下了帷幕。加利福尼亚州的最高法官汤普森郑重宣布:约翰.奥古斯特.苏特尔依法享有圣弗朗西斯科城土地的所有权和使用权,他的利益是合法的,任何人都不得侵犯。苏特尔是这场官司的赢家,从那时起,他又站在了世界首富的位置上。但事情并非那么简单,苏特尔的胜利,仅仅只是法庭上的胜利,是表面的胜利罢了。那些因判决而遭遇财产损失的人,参杂着窃贼和捣乱分子,攻占法庭,威胁汤普森法官,烧毁苏特尔的新家,还杀死了他的三个儿子。

如今的大数据公司很像当时的矿工,而苏特尔,就是我们每一个数据背后的个体。历史种种我们无需追责,但2018年5月生效的欧盟GDPR《通用数据保护条例》和中国的GB/T 35273-2017 《信息安全技术 个人信息安全规范》,意味着混乱局面的终结。数据所有权第一次在法律规定下,回到了用户手中。更加幸运的是,这一次法律战胜了强权。以美国互联网企业为代表的无约束数据矿工,纷纷匆忙修改自己的产品和服务,有些甚至直接退出欧洲市场。Facebook爆出的数据丑闻在全球范围引发了卸载热潮,并在2018年Q2汇报的业绩预警声中,股票下跌20%。于此相反,从不追踪隐私的搜索引擎DuckDuckGo早已实现了盈利,所谓数据保护阻碍科技进步的谎言不攻自破。用户第一次拿回原本属于自己的权利,就像苏特尔在得知汤普森法官判决结果的那一刻。只是那一刻对苏特尔太短暂,而我们终可以笑到最后,有了保护隐私的工具,还明确了数据资产所有权,具体包括以下几个方面的权利:

授权过程要清晰明了,满足最小可用性
数据保持完整性,保密性,不可联结性
用户对其隐私数据具有转移权,修正权和删除权(遗忘权)

蒙上眼睛的交易

在这样的要求之下,隐私得到了保护,但是流通收到了限制。还好数据产权逐渐明确,在找到了数据管理主体之后,我们就可以使用上述隐私保护工具设计一个不对外泄露原始数据情况下的,三方可验证数据交易。首先数据在产生的同时就需要上链登记,比防止被篡改。登记形式可以是一个将数据原文多次哈希压缩的结果dHash。哈希结果只是用来登记所有权和验证数据准确,数据源文件一般较大,需要用用户的私钥进行RSA加密,然后储存到云平台。在交易的时候,基于智能合约,矿工不接触原文,而完成双方的交易和验证,流程如下:

1. 交易金额由双方确认,共同签名,以确认交易意愿
   - 数据提供方为A,数据接收方和资金提供方为B
   - 启动智能合约,B的资金转移到合约地址下,并根据下面验证流程进行自动分配
2. 输出方A提供原文,使用B的公钥RSA加密给B,由接收方B解码后通过dHash确认,并签名接收
   - 如果签名成功,执行资金转移
   - 如果B不承认接收,可能A没给,也可能B收到了不承认,就需要A和矿工C先进行zk proof验证
   - C创建验证数据对,A计算dHash的prf值,C验证prf
     - 如果C验证失败,说明A没有数据,交易终止,B资金退回
     - 如果C验证成功,说明A确实拥有原文,A再一次传递数据给B
     - 如果B仍然没收到,C投票选择中间节点验证原文,执行资金操作
       - 这里A没有作恶动机,因为资金已经锁定,如果要反悔交易应该在数据传递之前反悔
       - 这里B没有作恶动机,因为资金会被强制转移,如果数据通过C中间节点泄露,对B的采购价值反而有折损
       - 除非B报复性采购并公开数据。但这也可以交易完成后公开,并不影响交易本身
3. B把接收的数据再用自己的RSA秘钥加密,提交到云存储网络
   - C区块链确保dHash一致,以及确认B是否有二次授权权限
   - B自己会保证密文结果一致,否则该数据他也无法使用

看似简单的交易,但是在区块链拜占庭容错的要求下,需要考虑到所有可能的作恶情况。现在又加上了数据保密,所以异常繁琐。但所幸在经济规律的约束下,这样的协议基本足够应用。但即使完成了隐私数据的安全转移,还是无法保证数据接收方没有二次传播和滥用。在Facebook和Cambridge Analytica(CA)的数据丑闻中,正充分体现了这一风险。几年前一款由剑桥大学研究人员开发并提供给CA公司的叫做“this is your digital life”的小应用在Facebook流传开。按照当时的隐私条款,这款应用以公益为名,除了收集用户的调查问卷外,还获取了这些用户的个人信息,以及他们好友的社交信息。最终这些信息除了用来做小应用的分析结果展示给用户,还被二次利用到了美国大选的社会营销活动里。

假设我们先把Facebook区块链化,这样我们获得了社区的自主权。然后利用加密工具把通讯记录和社交关系加密保存,只有我们自己能解密。当第三方需要申请授权数据的时候,无法绕过用户,保证了用户的知情权和修正权。但在最终将数据转移给第三方之前,我们还需要另外一层虚拟ID的保护以使数据脱敏。第三方看到的不是我的Facebook身份,而是一个虚拟甚至动态的临时ID。就像在医疗领域,其实不需要知道具体病人的个人信息,只记录病例相关信息就足够用于科研。在Facebook这里,同一个人给不同第三方提供数据时,使用的虚拟ID也不同,保证这个数据无法拿来二次关联。苹果手机的IDFV (identifierForVendor) 就是这样一种,同一用户在不同APP开发商那里会登记不同数值的ID。显然CA公司拿到了这个数据之后,无法再在美国大选的营销活动里定向用户了。但这也会导致一些交叉画像的精准广告失效,所以苹果手机预留了另外一个IDFA (advertisingIdentifier)的通用广告ID,这个设置是需要用户授权,可以被关闭的。

背靠背的握手

除了单向的买卖,还有数据关联合作也需要隐私保护。面对目前的数据孤岛,单一方向的数据流动并不高效,需要多元数据的相互融合才能真正解决商业问题。比如跨医院的医疗记录整合可以提供更加个性化和精准的诊断;汽车维修、违章、保险记录如果能够结合会颠覆二手车和汽车保险行业;跨电商平台的交易整合可以提供更加通用的信用;而反欺诈平台如果形成数据联盟,共享黑白名单的话对欺诈犯罪会是毁灭性打击。为此,在数据所有方充分告知和授权的情况下,双方数据可以无障碍流通。但在达成这种合作之前,两个数据源用户的匹配情况需要提前预估。用户ID如果是敏感的手机号,身份证等标签的话,需要在背靠背的情况下完成握手,求出交集以评估匹配度与合作可能性。一旦合作破裂,双方是背靠背的,不带走任何交集外的对方数据。匹配过程即使开放给第三方,也不会有任何泄露。

如何实现这种背靠背匹配呢?最容易想到的就是通过单向哈希对匹配字段进行变换。因为变换规则一致,所以相同的用户ID在变换后仍然相同,可以通过这种间接匹配来建立关联。但哈希是可以碰撞破解的,如果对手机号这种短码进行哈希的话,对方可以很容易的穷举所有原文进行碰撞。这时就需要两步加扰来保护隐私,思路与OTS单次哈希签名类似:

多次哈希背靠背:
假设数据交换双方为A,B
A将自己需要匹配的用户ID哈希n次得到 Hn(A) 交给B
B将自己需要匹配的用户ID哈希m次得到 Hm(B) 交给A
A拿到B的Hm(B)以后,一方面哈希难以反算,另一方面不知道m的次数,所以增加了碰撞的难度
  A接着对其继续哈希n次,得到Hm+n(B) 交给智能合约
  B也对其数据再哈希m次,得到Hn+m(A) 交给智能合约
智能合约比较 Hm+n(B) 和 Hn+m(A)
因为哈希函数满足次数交换律,所以两次哈希加扰结果相等的就代表A、B原文也相等

其实只要满足交换律的加扰计算都可以用在这里,我们借助椭圆函数也可以完成类似设计

椭圆加扰背靠背:
假设数据交换双方为A,B
约定一个有限域上的椭圆函数E
A随机选择椭圆函数上一点P,将自己需要匹配的用户ID映射到椭圆函数并与P求和 得到A+P 交给B
B随机选择椭圆函数上一点Q,将自己需要匹配的用户ID映射到椭圆函数并与Q求和 得到B+Q 交给A
A拿到B+Q后,因为有限域上椭圆函数加法是取mod的,逆运算难度大,所以难以反推B的原文,其难度和破解私钥一样
  A接着对其做加法,得到B+Q+P 交给智能合约
  B执行同样步骤得到A+P+Q 交给智能合约
智能合约比较 B+Q+P 和 A+P+Q
因为椭圆函数满足加法交换律,所以两次加法结果相等就代表A,B原文也相等
当让也可以用椭圆函数乘法来加扰,计算复杂度会提高,但安全性也大大提高

数据完成关联后,还缺临门一脚就是计算。后面章节会结合计算机工具探讨各种匿名计算的形式。

results matching ""

    No results matching ""