本文发布于PlatON,作者:LatticeX 基金会。
自 2016 年隐私计算(Privacy-preserving Computation)概念被提出以来,历经五年的发展,在各国对数据隐私保护的相关法律法规的推动下,加上全球疫情导致的人类社会数字化程度的日益加深,数据要素越来越成为驱动经济发展的首要能源,这也让隐私计算在信息科技中逐渐成为最基础也是最重要的底层技术。
隐私计算是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算让数据或计算方法在保持「加密」状态,不泄露给其他合作方的前提下,进行计算合作。
这种让数据在密态下用于计算以发挥价值的方式,正在也将会彻底地改变互联网络乃至人类社会的运作方式。
作为信息网络的基本组件,数据将人类在数字化状态下生产生活的一切信息和轨迹都忠实地记录下来,并在云计算、大数据、人工智能等新兴科技的广泛采用下,被挖掘出大量价值,不断改善甚至改造人类的生活。
依靠数据产生价值,是互联网巨头们的基本商业模式,而其前提是对用户信息的采集。用户信息数据在本质上属于用户个人权利的重要组成部分,其中用户个人数据的隐私权已经越来越受到重视,在各国均受到法律保护。
所以一直广受关注的数据安全问题,已经从过去的黑客防止、容灾备份、数据恢复等传统领域,逐渐转向聚焦于在挖掘数据价值的同时如何保护好用户隐私。
在当下,几乎所有的应用场景中数据都是以明文的方式被共享和使用。由于数据以数字化形态而非实体存在,不存在独占性特征,所以「所见即所得」这一特性让数据的「使用」和「拥有」实际上无从区分。
这种明文储存数据的形式在事实上造成了数据共享和隐私保护之间存在天然的对立和矛盾,哪怕采用去除敏感信息后再发布的模式,也可以通过准标识符识别的手段来确定用户身份。
这一矛盾的存在,是当前存有大量数据应用需求的行业的主要发展障碍。例如在 AI 行业,一方面需要海量数据来投喂,训练 AI 变得更加聪明更加强大;另外一方面受限于数据隐私保护的严格要求,可以合规使用的数据量又非常欠缺。
隐私计算的提出,为这一矛盾的解决提供了两全其美的方案。
通过隐私计算,让数据在密文的状态进行流通和共享并用于计算,让数据的「使用」和「拥有」这两个状态完全脱离,数据「不可见但可用」,让数据隐私得以完全保护,但数据的价值依旧可以发挥。
所以可以预见,在隐私计算技术成为底层信息技术的未来,存留于社会每个角落的数据,除非得到数据所有人的授权确认,都会以完全不可读的密文状态进行共享和使用,从而在根本上解决数据隐私保护问题。
数据在从「明文」进入「密文」状态后,实际上我们现在已经非常熟悉的互联网将从基于数据交换的信息网络,跃迁为基于计算互操作的计算网络。
互联网巨头们今天掌握着海量的用户数据,并通过数据挖掘来不断从中攫取价值,以实现商业收入。这一状态将在未来得以彻底的颠覆。
数据将在隐私计算技术的支持下,出现新的协同范式。
传统的互联网可以被定义为面向数据进行直接处理的信息型网络,本地的数据被各种应用采集(很多情况下是未经其所有者许可的静默采集)后传送至云端,并在云端得以处理和挖掘,进而产生商业价值。但数据的所有者在全程都没有授权,更没有从其创造的商业价值中获得对应回报。
更为严重的情况是,这些明文形式的数据在被采集后直接被贩卖,从而导致大量隐私数据被泄露,造成极为恶劣的社会影响和经济损失。
隐私计算将能够让用户的数据保留在本地,并且在被加密的状态下参与计算,并输出计算结果后上传至云端提供给计算发起方。全过程数据明文都没有被披露,数据隐私得到了根本性的保护。同时数据所创造的价值,可以通过合理的机制进行度量,并能够让数据所有者从中得到合理的回报。
互联网络进化的终极方向,就是从数据从端到云进行传输的信息网络形式,朝面向数据共享的协同计算的计算网络演进。
正如分布式隐私 AI 网络 PlatON 所主张的,「一切皆可计算」。
作为计算的对象,「数据」本身具有不同于传统生产要素的非常独特的性质,除了在明文状态下所见即所得之外,还存在着「天生」的部分公共属性。
具体来说,单一来源的数据实际上可信性和价值是不充分和不足够的,能够真正持续创造价值的数据应该具有多来源、多维度、多方持续运营的特色。
所以在以数据为基本生产要素的数字化社会中,面向数据的分析和计算,一定不会仅仅局限于单一来源的供给。
例如自动驾驶的 AI,对其进行训练所「投喂」的数据,就必须涵盖全场景、全路况和全规则下的多种来源。可以简单理解为,通过区域 A 以开阔道路为主的驾驶数据训练出来的 AI,一定不适用于区域 B 主要是复杂路况下的自动驾驶。
而如果这个「区域 A」和「区域 B」所拥有的数据又存有数据所有权控制问题的话,那么要么通过单一来源数据训练出来的自动驾驶 AI,由于自带局限性的数据供给导致其根本无法通用;要么就需要找到让「区域 A」和「区域 B」的数据能够进行联合训练,但又不会将数据披露出来的方式。
在数据的核心本质存在公共属性的情况下,数据的价值也就需要在多方之间的协同来实现。所以面向数据的计算也不能像以前一样,由中心化的单方计算来实现,而是应该在多方来源的数据都不离开本地的情况下,通过密态下的多方计算来输出计算结果。
在现实社会中,公民作为国家的基本组成单位,拥有受国家法律保护,受国家政府保障的基本权利。它也是根据法律规定,公民参与公共社会生活的权利。例如公民的民事权利中就包括财产所有权、人身权、隐私权等等。
公民在部分权利上的让渡,构建了国家的权力。
但在网络世界中,用户使用着网络服务提供者(例如网络巨头们)提供的公共数字产品,并且将个人的数据在非自愿的情况下完全提供给了这些数字产品。网络服务提供者们对用户的数据拥有完全的、绝对的处置权力。
比如可以无须用户许可就删除用户的账号。
比如对用户数据进行挖掘从而攫取商业利益,但完全不用向用户支付回报。
所以从根本上来说,网络服务提供者如同现实世界的国家一样掌握着国家级的权力,但该权力获取方式是强制的,不以服务使用者权利让渡为前提的。
换句话说,在网络世界中,我们每一个用户没有任何权利可言。我们无论现实世界中身份如何,只要连接了网络使用了网络服务,我们就会沦为这些网络服务的奴工——贡献价值,让渡权利,没有回报。
只有当隐私计算真正成为互联网的基础技术,所有网络服务提供者都遵循隐私计算的范式来为我们提供服务,让我们的数据都在密文下保存,让数据的「拥有」和「使用」相分离,并且可以完全遵循我们的意愿参与计算,网络世界中的参与者才真正能够成为拥有基本权利的网络公民。
作为一项新近出现的信息技术,隐私计算所带来的必将不是简单的新应用,而将从根本上改变互联网的基本运作模式,并让网络参与者以全新的身份使用各种各样的网络服务,改善生活水平,提升工作效率,保障数据权利,构建网络世界。
总部位于新加坡的 LatticeX 基金会(LatticeX Foundation)以通过构建复杂计算归还用户数据主权,保护数据隐私,实现数据价值交换为愿景,旨在构建一个完全去中心化的计算互操作网络,在保护数据主权和隐私的前提下促进数据使用权的交易,并为实现 LatticeX 愿景资助各类学术研究,培养管理各项应用,并对优质项目提供资金支持。LatticeX 基金会是分布式隐私 AI 网络 PlatON 和金融网络 Alaya 主要的支持者和推动者。