隐私计算在公共数据开放中的应用模式
2022年8月5日,上海市经信委发布《2022年上海市公共数据开放重点工作安排》,其中提到要“针对部分重点试点场景,探索隐私计算的公共数据开放模式”。公共数据体量庞大,是数据资源的重要组成部分。在确保安全的前提下,将公共数据开放,能够使“沉睡”的数据流动起来,有利于数据价值的释放。
隐私计算技术能够实现数据流通和融合过程中“原始数据不出域、数据可用不可见”。探索基于隐私计算的公共数据开放模式,有助于实现公共数据安全和开放之间的平衡,降低公共数据开放的风险,进一步推动公共数据价值的释放。
一、公共数据开放受重视,开放平台建设有序推进
(一)公共数据概念及类型
据零壹智库不完全统计,截至2022年7月,包括上海、北京、天津、吉林等在内的10个地区出台了专门面向公共数据的管理办法。结合各地管理办法对公共数据的定义,公共数据是指国家机关、事业单位,以及其他依照法律法规授权具有管理公共事务职能或提供公共服务的组织在依法履行公共管理职责或者提供公共服务过程中收集和产生的数据。
根据数据来源的不同,中国软件测评中心的《公共数据运营模式研究报告》将公共数据划分为五种类型,分别是政务数据、公共企事业单位数据、专业组织数据、社会团体数据和公共领域的其它数据。
图1:公共数据的五种类型
资料来源:中国软件测评中心、零壹智库
(二)公共数据开放现状
公共数据开放是指公共数据提供单位面向社会提供具备原始性、可机器读取、可进行社会化开发利用的数据集的公共服务。早在2015年8月,国务院在《促进大数据发展行动纲要》中便提到“稳步推动公共数据资源开放”。近年来,公共数据开放进一步受到国家重视,《国家“十四五”发展规划》和《“十四五”数字经济发展规划》中均提到了关于公共数据开放的相关内容。
表1:涉及“公共数据开放”的部分国家政策
资料来源:政府网、零壹智库
地方层面,一方面,地方政府不断出台关于公共数据开放的政策措施。根据零壹智库发布的《中国数据要素政策普查报告(2022)》(以下简称《报告》),全国31个省级行政区(不包括港澳台)发布的“十四五”规划中,有20个地区提到了“数据开放”,17个地区提到了“公共数据”。现阶段,数据开放主要指公共数据开放。同时,《报告》显示,截至2022年7月,上海、天津、浙江、山东等8个地区已经制定了省级层面的公共数据开放管理办法。
另一方面,地方公共数据开放平台建设积极推进。复旦大学的中国开放数林指数网站显示,自2017年开始,全国地级及以上政府推出的数据开放平台数量出现明显增长;截至2021年10月,我国已有193个省级和城市的地方政府上线了数据开放平台,其中省级平台有20个(含省和自治区,不包括直辖市和港澳台),城市平台 173 个(含直辖市、副省级与地级行政区)。
图2:历年地级以上政府数据平台数量增长情况
数据来源:中国开放数林指数网
总体来看,虽然国家对公共数据开放日益重视,各地政府也有序上线了公共数据开放平台,但我国公共数据开放仍处于初始阶段。零壹智库在《中国公共数据开放图谱》报告中通过对省级公共数据开放平台的数据开放方式、开放数据量等进行分析发现,目前数据开放方式主要包括数据集和数据接口两类,并且各个地区开放的数据集、数据接口及数据总量存在明显差距,各地地区公共数据开放数量不足、质量不高、方式单一等问题普遍存在。
然而,造成公共数据开放困境的重要原因之一是难以实现数据开放和数据安全之间的平衡。
二、“隐私计算+数据流通”成政策鼓励与支持方向
目前,除上海市外,广东省也提出要建设省级隐私计算平台,提供一条“数据不出域、可用不可见”的公共数据使用路径。公共数据开放是数据流通的主要类型之一。现阶段,“将隐私计算与数据流通结合,实现数据可信流通”已经受到了国家政策支持,据零壹智库不完全统计,已经有4部国家政策明确鼓励将隐私计算技术应用于数据安全流通过程中。
表2:涉及“隐私计算+数据流通”的政策
资料来源:政府网、零壹智库
其中,国务院办公厅在2021年12月发布的《要素市场化配置综合改革试点总体方案》中提到要建立健全数据流通交易规则,探索“原始数据不出域、数据可用不可见”的交易范式,探索建立数据用途和用量控制制度,实现数据使用“可控可计量”。同年,工信部发布的《网络安全产业高质量发展三年行动计划(2021-2023年)(征求意见稿)》更是直接提出,要通过隐私计算等数据安全技术的研究与应用促进数据要素安全有序流通。
由此可见,隐私计算已经成为实现数据可信流通,促进数据价值释放的重要技术手段之一。
三、隐私计算在公共数据开放中的应用模式
在公共数据开放过程中,相关政府部门通过构建基于隐私计算的公共数据开放平台,进行公共数据、社会数据以及企业数据的安全计算、联合统计、联合建模,实现数据的融合交互。目前,公开数据已经被应用于金融服务、交通出行、医疗卫生、教育科技、文化休闲等多个领域。
在基于隐私计算的公共数据开放平台中,政务部门、公共企事业单位等为数据提供方,金融机构、医疗机构等为数据应用方。
表3:隐私计算在公共数据开放中的典型场景和算法
资料来源:隐私计算联盟、零壹智库
四、基于隐私计算的公共数据开放实践
在实践方面,目前,广东省中山市以及山东省均已将隐私计算技术应用至公共数据开放领域,其中,中山市政务服务数据管理局(以下简称“中山市政数局”)推出了数据安全可信计算平台;山东省大数据局推出了“基于隐私计算的省级一体化公共数据开放平台”。具体来看:
在建设方式上,中山市和山东省均采取了政企合作方式。中山市数据安全可信计算平台由中山市政数局主导,联合京信数据科技有限公司共同建设;山东省的“基于隐私计算的省级一体化公共数据开放平台”由洞见科技和智慧齐鲁公司合作建设。
从技术应用来看,中山市数据安全可信计算平台以联邦学习、多方安全计算、可信执行环境为核心,并结合区块链、安全传输、密码学等信息技术,在“原始数据不出域”的基础上实现政银数据核心价值流动;山东省的“基于隐私计算的省级一体化公共数据开放平台”则基于洞见数智联邦平台(InsightOne)的成熟框架开发,支持多方安全计算和联邦学习融合应用模式,并通过联邦区块链保证过程的不可篡改性与可溯源性,达到原始数据不出私域即能完成数据共享应用,实现数据安全和隐私保护之前的平衡。
在应用场景上,现阶段,中山市数据安全可信计算平台主要以企业投融资、普惠金融等领域为试点,推进公共数据和社会数据的融合应用,通过将公共数据、征信数据等进行融合,打造政企联合风控监测体系,解决小微企业贷款面临的风控数据不足问题。
山东省的“基于隐私计算的省级一体化公共数据开放平台”主要服务于匿踪安全查询、安全联合统计分析、多方联合建模、银政企合作(地方金融服务平台)等场景。
Scan QR code with WeChat