隐私计算——实现数据价值释放的突破口
当前,数据流通不畅已成为制约我国大数据产业发展的重要问题。数据拥有者出于数据安全保密的顾虑而不愿共享数据,使得不同企业、不同机构间难以利用对方的数据进行联合分析或建模。为解决这一问题,大数据从业者们从多种角度进行了诸多探索。从目前发展现状和趋势看,隐私计算技术最有可能成为实现这一突破的关键。
一、隐私计算概述及应用价值
隐私计算(Privacy Computing)是指在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术,主要分为密码学和可信硬件两大领域。
密码学的技术目前以多方安全计算(MPC)为代表。多方安全计算技术核心思想是设计特殊的加密算法和协议,从而支持在加密数据之上直接进行计算。目前MPC通过秘密分割、不经意传输、混淆电路或同态加密等专门技术实现,通用性相对较低、性能处于中等水平,但近年来性能提升迅速、应用价值极高。
可信硬件技术目前主要指可信执行环境(TEE),其核心思想是构建一个硬件安全区域,数据仅在该安全区域内进行计算。TEE将信任机制交给硬件方(Intel的SGX、ARM的TrustZone、AMD的SEV等产品),严格来讲并不属于“数据可用不可见”,但其通用性高、开发难度低,使得在数据保护要求不是特别严苛的场景下存在价值发挥的可能。
此外,国内外还衍生出了联邦学习、共享学习、知识联邦、联邦智能等一系列“联邦学习类”技术。这类技术以实现机器学习、数据建模、数据预测分析等具体场景为目标,通过对上述技术加以改进融合,并在算法层面进行调整优化而实现。相关技术的主要对比如下表所示。
隐私计算不泄露原始数据,可以在保护数据安全的前提下实现数据多元跨域融合,有助于破解数据保护与利用之间的矛盾。权威机构Gartner在2019年技术成熟度曲线报告中首次将隐私计算(其称为机密计算)列为处于启动期的关键技术。世界经济论坛2019年9月发布的白皮书认为,隐私计算技术将成为释放金融服务行业新价值的关键技术。
二、隐私计算产业发展环境
近两年来,伴随着技术的不断成熟,国内外隐私计算产业化应用的步伐明显加快。未来几年将会是隐私计算产业化快速发展的关键阶段。
国外隐私计算技术产品创新活跃,但仍处于发展初期。2019年以来,国外科技巨头快速布局隐私计算产业。2019年4月微软新发布的两项专利申请表明,其正考虑在拟推出的区块链产品中使用TEE。2019年8月,谷歌发布消息称,将推出新型MPC开源库,以隐私安全的方式进行数据协作。麻省理工学院背景的初创公司 Enigma也推出了基于MPC的新加密系统。但从整体发展情况来看,国外的隐私计算产品形态仍处于较为初步的阶段,未形成产业生态圈,也尚未形成垄断格局。
国内隐私计算技术产品蓬勃发展,形成一定优势。我国的隐私计算技术产业化也在近年来快速启动。蚂蚁金服、腾讯云、百度在2019年纷纷推出了各自的MPC产品。阿里巴巴、微众银行、京东等企业也在各自的技术领域形成一定优势。目前,各互联网巨头企业均在隐私计算领域加快布局,形成跨业务、多团队、强支撑的发展态势。此外,华控清交、富数科技、数牍科技、锘崴科技、光之树科技、零知识科技等一批专注于隐私计算产品化的初创企业也不断涌现。诸多区块链企业、数据安全企业、金融风控企业、电信企业等也纷纷拥抱隐私计算技术。在大数据产业快速发展的牵引下,我国隐私计算技术产品正在逐步成熟、应用场景快速扩充,已经形成了一定的竞争优势,并有望在国际竞争中占据有利地位。
产业政策正在助推隐私计算技术和应用发展。工业和信息化部早在2016年年底发布的《大数据产业发展规划(2016-2020年)》中就已经提出支持企业加强多方安全计算等数据流通关键技术攻关和测试验证。中国人民银行2019年9月颁布的《金融科技(FinTech)发展规划(2019-2021年)》也提出,要利用包括MPC在内的技术提升金融服务安全性。工信部《工业大数据发展指导意见(征求意见稿)》也提出在工业领域积极推广MPC技术,促进工业数据安全流通。政策的提前布局对于我国抢占隐私计算技术和应用关键领域奠定了良好基础。
三、隐私计算应用发展现状
近年来隐私计算技术和应用快速成熟。以MPC为例,自20世纪80年代姚期智等人提出以来,这项技术更多停留在学术研究层面,实用价值不高。近年来,随着算法协议的优化和硬件计算能力的增强,MPC计算耗时已经从数十万倍下降至100倍以内,其可用性大大增强。同时,随着其它配套安全技术的逐渐成熟,隐私计算的技术和产品成熟度在近两年迅速提升。
隐私计算应用场景不断扩展。伴随着我国大数据产业的持续发展和数据安全共享的需求快速迸发,隐私计算技术的应用场景越来越多。金融行业已经开启隐私计算应用。目前国内隐私计算产品主要应用于金融行业的风控和获客,即多家金融相关机构在不泄露客户个人信息的前提下对客户进行联合画像和产品推荐,在多头借贷等场景下能有效降低违约风险。医疗行业正在成为隐私计算关注重点。通过隐私计算技术,医疗机构与保险公司之间可以在不共享原始数据的情况下分析投保者的健康信息。政务行业有望成为隐私计算下一个应用重点。隐私计算提供了政府数据与电信企业、互联网企业等社会数据融合的解决方案。在部分地方政府的相关规划里,已经有所涉及。
信任机制是隐私计算广泛应用的关键。隐私计算技术自诞生以来重要使命便是保证隐私数据在利用过程中不被泄露。作为一项新技术,如何能自证安全、持续强化安全、建立市场信任是其被广泛应用的关键。“自证安全”是隐私计算应用的起点,当前隐私计算应用主要通过深入介绍产品保密算法机制、签订严格保密协议和引入第三方评测机构评测产品来实现。持续强化安全是隐私计算应用的长效保障,目前主要通过不断优化算法来防范恶意攻击,更加严格控制计算流程来封堵漏洞等方式实现。建立市场信任是隐私计算产品应用的关键问题。在隐私计算过程中,通过严格的数据授权、身份验证、状态监控预警等方式让数据提供方始终清楚己方数据的用量、用法、用途均不超出事先约定,可以充分建立用户信任乃至市场信任,但当前的应用在这一部分工作仍需加强。
四、隐私计算发展面临的问题
我国隐私计算发展具备一定优势、存在广阔应用空间,但由于技术发展仍不完善,因此也面临着一些问题。
一是隐私计算技术性能还难以满足大规模商用要求。虽然目前隐私计算的性能已经大大提升,但由于其加密机理复杂、交互次数多,当流通的数据量较大或结构较为复杂时,计算效率问题仍然未能解决。特别是对于复杂算法的联合建模效率仍然难以令人满意。
二是隐私计算技术市场难以迅速培育。相对于其巨大的市场前景,目前隐私计算技术的市场还远未成熟,而市场环境的培育也呈现出较大的难度。一方面,由于隐私计算技术复杂且常常呈现“黑盒化”现象,大部分用户对隐私技术难以理解和信任。另一方面,隐私计算处理的对象往往是敏感的数据资产,试错成本大,从而更加增加了用户的接受成本。
三是目前大部分企业的数据规范性和数据质量难以支撑隐私计算技术。由于隐私计算算法敏感度较高,因此对参与方的数据规范性和数据质量要求也较高。此外,隐私计算多用于跨企业甚至跨行业的数据流通,对参与方的数据一致性也提出了较高要求。
四是现有法律法规未对隐私计算地位进行明确定位。例如,《中华人民共和国网络安全法》中规定“未经被收集者同意,网络运营者不得向他人提供个人信息”,同时设置了“经过处理无法识别特定个人且不能复原”的例外条款。将个人信息用于隐私计算是否属于这一例外条款,法律法规及相关标准等并无明确界定。然而,由于隐私计算仅仅避免了原始数据转移的过程,但仍然完成了基于多方数据的计算,使得其在某种程度上依然破坏了消费者的隐私。这正在成为制约隐私计算发展的无法回避的问题。
五、隐私计算发展趋势
从技术角度看,隐私计算正呈现出如下趋势。
一是与区块链结合构建完整解决方案。区块链的公开透明和全节点验证,数据将流经区块链上的每个节点,使其无法很好地处理隐私数据。将隐私计算应用于区块链上,既一定程度上增加了隐私计算结果的不可篡改性和可验证性,也增加了区块链上数据的保密能力,目前成为诸多厂商的技术融合方向。
二是软硬件协同提升隐私计算性能。硬件加速在隐私计算性能提升方面正在发挥越来越关键的作用,特别是一些专用芯片和控件的使用,明显提升了隐私计算的性能。
三是向大规模分布式计算迈进。2020年以来隐私计算逐渐成熟的一个表现就是分布式隐私计算的逐渐应用,为解决隐私计算在计算量方面的瓶颈提供了优秀实践。
四是与平台设施的进一步整合。越来越多的隐私计算企业将其产品与大数据平台设施进行整合,从而提供从存储计算到建模挖掘的全方位能力,大大提升产品的便利性。
五是隐私计算的实现方式更加多样化。对于短周期项目,通过低代码甚至零代码开发,通过图形化拉拖拽的方式替代编码可以大大节省开发效率,降低隐私计算产品开发门槛。
作为解决数据流通、实现数据价值的关键突破口,隐私计算技术未来的发展前景非常美好。如何进一步地推动隐私计算技术和产业发展,也是相关从业者的关注热点。中国信通院从2017年起持续深入研究隐私计算技术,推出了《数据流通关键技术书白皮书》《多方安全计算技术与应用研究报告》等成果,2019年发布《基于多方安全计算的数据流通工具 技术要求与测试方法》标准,并进行了两轮共计15个产品的评测,成为业界具有很高影响力的权威评测。2020年7月,与近20家业内企业共同编写的《基于可信执行环境的数据计算平台 技术要求与测试方法》《基于联邦学习的数据流通工具 技术要求与测试方法》两项标准同时发布,标准符合性评测即将开展。相关性能测试工具正在研发中。
微信扫描关注公众号,及时掌握新动向
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场