微众银行严强:有效支撑多方大数据场景是普及隐私计算的关键
在由中国信通院云计算与大数据研究所牵头组织,隐私计算联盟、金融数据智能联盟、中国通信标准化协会大数据技术标准推进委员会共同举办的“隐私计算金融应用沙龙”上,微众银行区块链安全科学家严强博士就《多方大数据隐私计算实践》做主题分享。
基于微众银行自主研发的多方大数据隐私计算平台WeDPR-PPC和全面隐私保护技术能力矩阵,严强围绕联合风控、联合报表、隐私查询、数据开放服务四类应用场景,深入分析了多方大数据相关技术挑战和应对之道。
数据隐私保护,机遇与挑战并存
严强表示,当前数据隐私保护蓝海市场凸显,发展前景广阔。一方面,数据隐私保护市场比较新,可以承载足够多的想象空间;另一方面,人们对于数据隐私保护的需求日益迫切,市场也因此得到快速发展。在微众银行联合毕马威发布的《2021隐私计算行业研究报告:深潜数据蓝海》报告中就提及,隐私计算受到大数据融合应用和隐私保护的双重需求驱动,国内市场规模将快速发展,三年后技术服务营收有望触达100-200亿人民币的空间,甚至将撬动千亿级的数据平台运营收入空间。
挑战往往与机遇相伴而生。受限于目前技术的掣肘,数据隐私保护市场还处于早期发展阶段。当设计隐私保护方案时,容易受到安全、性能和易用这三大核心因素的制约。在实践中,往往会因为这三个核心因素之间的制约关系,需要对业务需求的不同侧面做出取舍。比如,可能会为了提升系统的性能,在满足必要的安全性水准的条件下,适当降低相关安全参数的设置。
对于隐私计算,目前主要包含三大技术流派,分别是可信执行环境、多方安全计算和联邦学习。三大技术流派各有所长,对于不同的场景,我们需要深度理解具体的业务需求,尤其是在大数据行业蓬勃发展的今天,非常有必要考虑如何为以“多方大数据”为典型特性的业务形态,做合适的技术选型。有效支撑多方大数据场景是业界普及隐私计算、加速数据生产要素化和大数据产业升级的关键。
多方大数据所面临的技术挑战
“多方协作、大数据处理”对于隐私计算的三大核心因素——安全、性能和易用,都显著提高了要求,往往单一技术方案难以满足所有的业务需求。
以联合风控为例,金融机构在做信用评估时,出于合规要求和商业利益,所使用的数据本身是不能出库的。但此时又希望联合多家机构构建并使用风控模型,来提升风控流程的准确性,这里必然会涉及到许多数据隐私相关的业务风险。
先看建模过程,目前主流的样本对齐方案只能支持两两之间的数据集客户ID求交,对于三方甚至更多参与方同时参与样本对齐时,建模的发起方除了能获得所有参与方共有的客户ID集合之外,还能获得其他机构额外的客户信息。
例如,通过与机构甲进行两两求交,获得客户X是机构甲的客户,但与机构乙进行两两求交,发现客户X不是机构乙的客户,所以客户X不会出现在最终共有的客户ID集合中,但建模的发起方依旧通过两两求交,获得了这些额外的客户归属信息,有悖于数据最小化披露原则。
再看预测过程,建模结束之后,每个机构都持有属于自己的模型的分片,我们通过客户ID去查询各个机构在各模型分片中的表现并进行汇总,进而联合计算风控的评分。
值得注意的是,模型往往会经历升级迭代,并非一成不变。当任何一方升级完自己的模型分片,而合作机构的数据或模型囿于某些原因而未及时更新,那最终很有可能导致获得错误的评分结果,此类操作风险可能会为相关金融业务带来直接经济损失。另一方面,对于合作机构持有的模型分片,建模的发起方并不具有绝对控制权,存在二次转卖给竞争对手的可能性,而且随着参与方数量的增加,防范此类业务风险的难度将大幅增加。
最后,随着智能终端和物联网技术的普及,由此产生的海量隐私数据,将带来更多样化的数据协作场景。目前我们谈隐私计算多是指机构与机构之间的合作,但大部分的数据实际上是由机构用户产生的,在机构层面进行了汇集。随着智能终端技术的发展以及更严格的合规要求的落实,许多用户数据将不能离开智能终端,以往的汇集的手段可能不再适用。此时,如何服务海量用户的同时接入,并有效处理以智能终端为中心的大数据隐私计算,是值得思考的又一技术挑战。
由此可见,“多方大数据”为处理隐私数据的业务方所带来的更高的要求,不仅仅会带来传统意义上的性能和计算资源的压力,可能还会带来额外数据泄露风险、操作风险、道德风险,最终影响业务的可用性。所以我们需要结合场景需求,升级现有技术,充分结合区块链、恶意模型下的密码学协议等前沿技术,更安全地发掘数据价值。
典型场景分析
1. 隐私查询
隐私查询,指具备各类隐私效果的查询功能,包括业界常说的匿踪查询。从技术角度来看,主要是通过隐私求交或者不经意传输来实现的,比较典型的应用有黑名单查询。
有别于一般的查询,黑名单查询的行为本身较敏感,往往查询者虽然查了黑名单,但并不想让数据服务方知道具体查了哪几条记录。除了如上严苛的匿踪要求,可能还会有其他的更多的附带要求,譬如很多时候查询者不只是要查用户是否在黑名单中,还需要附带了解该用户的关联信息,甚至获得信息之外,还要对关联信息进行密文计算加工。
值得注意的是,匿踪作为隐私查询的核心隐私要求,显著限制了系统性能。具体来看,对信息查询者而言,除了查询用户外,其他信息是不应该被获得的;同时,数据提供方不能获知查询方具体要查哪些用户,就必须要把所有用户的ID以密文的形式发送出来,如果查询方需要获得更多与ID关联信息,这些信息也要做类似处理,那么数据提供方所要发送的密文数据量将会非常庞大。在上亿条记录的大数据场景中,可能单次查询就会耗费上GB的网络流量。
这也就意味着,在实操层面,我们仍然有必要研发更创新的一些诸如采样的技术方案来优化性能瓶颈。另一方面,对于用户而言,关注查询的隐私性之外,还期望有更好的用户体验,譬如如今在网页上进行搜索,大概半秒钟就能获得上亿的搜索结果。对于隐私查询,我们也有着类似的对于用户体验的更高追求。
2. 联合报表
联合报表,指联合多个机构的数据,依照约定的规则,生成数据报表。具体来看,其涉及求平均数、最大值、加权、线性表达式等常见规则计算,以现有安全多方计算协议,可以保障数据明文不暴露,完成多样化的报表逻辑。联合报表在政务等领域有着广泛的应用。
目前,通用型隐私计算协议,其成本比较高,难以实现高频的大数据处理,更多是以批处理的方式来完成,会影响报表数据的实时性。而在联合报表的场景中,隐私计算引擎可针对常用查询模式,对翻译后代码进行调优,并选用最适用的协议执行引擎,将显著提升报表数据处理的效率。另一方面,伴随着参与方数量的增加,如何简化各个参与方部署和运维上的要求,选用安全高效的多方计算协议,避免联合报表中间计算过程中不必要的信息泄露的风险,也是值得关注的要点。
3. 数据开放服务
数据开放服务,指以安全可控的方式,向机构外的实体提供本机构内数据的业务形态。这与《数据安全法》中倡导的政务数据开放和金融机构需要完善数据安全管控精细度的实践密切相关,旨在为公众营造一个更好的市场环境。但这其中就存在一个关键问题:数据本身十分敏感,一旦其明文泄露,数据提供方无法限定数据的用途。这对于数据开放服务的提供者来说,存在很大的风险。
因此,数据提供方需要升级数据服务的技术能力,限定数据的用途,避免用于约定之外的用途。传统提供明文数据的业务模式可能不再适用,可以引入具备大数据处理能力的、恶意模型下的隐私计算技术,同时保证数据隐私性和主动预防数据滥用。
未来技术展望
未来,隐私计算将会如何发展?
不妨从to C场景的适配、公开可验证性、互联互通这三个大方向上管中窥豹,见始知终。
第一,to C场景的适配。目前我们看到更多的是to B或者to G的场景,未来to C场景将可能是巨大的机遇。去年9月,中国互联网络信息中心(CNNIC)发布的第46次《中国互联网络发展状况统计报告》显示,截至2020年6月,我国网民规模达9.40亿。
庞大的网民数量将带来高频的访问,目前的方案尚不能支撑如此高频的访问。此外,用户在to C场景中的资源消耗问题同样无法回避。例如,一次匿踪查询可能需要消耗上GB的移动网络流量,这相当于普通用户少看3个小时的视频。这对于不少用户而言,代价依旧比较高。
第二,公开可验证性。首先,机器学习模型计算本质上是一个概率型算法,存在出错的可能,而且一旦出错,就会产生成本。比较常见的是,当一方对模型进行了升级,而合作方没有及时更新,一直沿用旧模型,使得不合格的用户也能通过审批,这也会带来成本。对于实际业务而言,极有可能带来严重损失。因而,需要为模型计算过程的正确性提供技术性的验证手段,在不披露数据明文的前提下,完成自动化的大规模验证。
第三,互联互通。隐私计算旨在打破数据孤岛,但是隐私计算协议算法实现各异,可能会在不同的隐私计算平台之间再次划分出新的数据孤岛。目前隐私计算技术正处于早期高速发展阶段,新技术不断更新,在带来更好技术效果的同时,不同技术之间的底层协议可能完全不兼容,所以,在实操层面,要维持一成不变的标准化底层协议是极具挑战性的。
或者,不妨转换一下思路,放松对底层协议的要求,在上层引擎加载框架以实现互联互通。类似于现有的视频解码器框架,不同视频文件可能使用不同编码格式,但基于标准化的视频解码器框架,下载适配的解码器,便可顺利观看。类似地,对于隐私计算引擎加载框架进行标准化,可能会达成更稳定的、更持久的互联互通效果。
归根结底,技术是服务于业务场景的,隐私计算技术也不例外。面对来自“多方大数据”的巨大挑战,我们更应该思考场景化的技术发展策略。为此,我们可以将隐私计算的技术方案分为横向与纵向两类。横向可以跨多个场景,而纵向则能够聚焦目标场景,实现深度优化,以满足各种精细化的业务要求。
一直以来,微众银行深耕隐私计算,在横向和纵向的隐私计算上都积累了丰富的经验。最近,微众银行还发布了多方大数据隐私计算平台WeDPR-PPC,并且在行业中首批通过了中国信通院的权威测评。该平台可被广泛运用于金融、政务、公共健康等行业领域,在联合风控、反欺诈、反洗钱、数字化个人与企业服务、智慧城市社会治理、公共健康风险检索、流行病追踪等场景议题中,促进隐私数据有序流通,实现跨域价值融合创新。
Scan QR code with WeChat