透过流调的个人隐私泄露事件探讨分布式数据安全思路

金色财经 view 53408 2020-12-18 10:19

引言

自从入冬以来，国内“新冠肺炎”疫情出现一些零星反弹，老百姓本已放下的心，又重新提了起来。特别是2020年12月7日，成都市出现2例家庭聚集性疫情，这是自今年3月份以来，成都首例本土新增新冠肺炎确诊病例。病例确诊后，成都市很快进入战时状态，市疾控中心依托《新型冠状病毒肺炎防控方案》迅速开展流行病学调查工作，并在12月8日很快确诊其他3例新增本土病例，但当日引爆朋友圈等社交工具的话题、热搜，除了成都市当日新增3例病例以外，还有第3例病例，成都女孩赵某的个人隐私信息在互联网被泄露，引发全网的传阅、调侃和恶意攻击。虽然，事件很快在公安机关的介入下，已将散布、泄露赵某个人隐私的王某进行了行政处罚。但3天之后，12月11日，重庆新冠肺炎确诊患者徐某的个人信息也遭泄露，患者受到电话骚扰和谩骂。

其实，疫情防控中的个人隐私泄露问题并不是个案，就在2020年春节前后，超7000名武汉返乡公民信息遭到了泄露，返乡人员名单在微信群中肆意转发，大量敏感信息泄露；因将涉及新冠病毒患者及其亲属隐私的调查报告转给无关人员，湖南益阳市赫山区卫生健康局副局长被予以党纪立案调查，另有两人被训勉谈话，一人被通报批评；云南的文山州人民医院发生了泄露新冠病毒患者的姓名、家庭住址、工作单位、诊疗信息等个人信息[1]

在公共卫生安全领域，个人隐私权和公众知情权的平衡一直以来都是重要研究课题，国内也制定了相关法律、法规用于规范疫情防控过程中出现的个人隐私处理问题，例如：《中华人民共和国传染病防治法》第六十八条规定，故意泄露传染病病人、病原携带者、疑似传染病病人、密切接触者涉及个人隐私的有关信息、资料的，构成犯罪的，依法追究刑事责任。另外还有，《民法总则》《刑法修正案（九）》规定的“侵犯公民个人信息罪”等。

就在我们有法可依的条件下，个人隐私泄露事件依然出现层出不穷，除了公民在个人隐私保护上的法律意识薄弱原因外，还有管理单位在个人隐私信息收集、处理、存储、使用和披露的管理疏忽问题、相关信息化系统在隐私数据的数字化管理的长久缺失问题。

本文接下来主要通过系统化建设角度，讨论传染病流调过程中存在的个人隐私泄露风险和一些技术性治理办法，而关于整个传染病防控过程中的个人隐私数据泄露的完全杜绝，则是一个社会综合治理问题，这里包括：法律、公共卫生、信息系统和公民法律意识整体提高等多种条件，请读者理性看待。

流调与追踪过程

那什么是流调呢？流调的全称是“流行病学调查”，是对疾病、健康或卫生事件群体现象所进行的调查与处理。根据《新型冠状病毒肺炎防控方案（第七版）》[2]指导，新冠肺炎疫情的流调主要包括：个案调查、密切接触者判定、使用交通工具判定、聚集性疫情调查，编写调查信息报告等工作。根据《国家突发公共卫生事件相关信息报告管理工作规范(试行)》的要求调查信息报告工作主要又分为：填报事件的基本信息、初次、进展和结案报告四个阶段。根据流调收集的《新型冠状病毒肺炎病例个案调查表》、《聚集性疫情病例关键信息登记表》收集的信息结构上看，主要有：个人基础信息、病情健康信息、社会关系信息、行为轨迹信息等。

流调的主体流程如图一：

透过流调的个人隐私泄露事件探讨分布式数据安全思路

图1：流行病学调查流程

建立流调任务主要是通过国家传染病网络直报系统自动下发和根据当地疫情爆发情况人工建立调查任务，流调任务主要以区（县）疾控中心人员、疫情爆发社区人员、政府人员、医院院感科医生、公安、电信等共同等开展。调查通过基本信息调查、感染来源调查、污染范围调查、密切接触者调查、病例调查、家庭暴露调查、聚餐暴露调查、工作单位暴露调查、行动交通工具调查、重点场所暴露调查等，时间、空间、人群维度开展三间信息收集和分析，最终形成初次流调报告，形成的流调报告可继续更新和修改至疫情最终结案，结案后的流调报告集中上传管理。

目前我国这套流调机制总体上是高效的，特别通过本次新冠肺炎疫情防控的实际检验，成效显著。具有社会动员能力强、疫情扑灭及时等优势，但由于采用了多方协同防控机制，在个人隐私保护方面还存在泄露隐患。

流调过程的个人隐私保护盲点

多方参与调查，加大个人隐私泄露风险

重大疫情期间（如：新冠肺炎疫情）的流调和普通疫情期间的流调方式有显著区别，重大疫情爆发期间的流调由于时间紧、任务急、调查面广，工作量大，所以需要调动社会力量共同完成，非专业人员和法律意识薄弱群体也会接触到个人隐私信息。同时，由于大部分是现场调查，受网络和现场环境限制，大部分调查依然采用纸质表格填报方式，信息的开放度高，泄露风险高。成都女孩隐私泄露事件中，警方虽然没有公布具体的泄露过程，但从泄露的个人隐私信息结构上看，属于初次调查报告形成阶段，泄露信息有关键字：“初步调查情况”，说明调查信息还未归档，正在调查和分析过程中。

流调过程部分实现了信息化，离数字化还有差距

虽然我国疾控中心信息中心在2011年研发上线了流行病学调查动态数据采集云平台（EDDC）[4]，该项目作为“中国/世界卫生组织卫生技术合作项目”和“十一五科技支撑课题”，截止2017年底，已经在澳大利亚卫生信息大会、中美新发再发传染病合作项目和发展中国家培训班上进行推广。授权世界卫生组织驻华代表处、国内各省级疾控中心、各计划单列市市级疾控中心及其他发展中国家免费使用[5]。但从EDDC系统的建设内容来看，EDDC注重调查问卷的制作和数据统计工作，对于调查和分析过程的技术支持较少[6]，还属于流程信息化阶段。见图二：

透过流调的个人隐私泄露事件探讨分布式数据安全思路

图二来源：流行病学动态数据采集平台在公共卫生调查中的应用[6]

所以国内部分省级疾控中心也在自建流行病调查系统，例如：2020年北京市疾病预防控制中心研发了基于人工智能的新冠肺炎疫情现场数字化流行病学调查系统，该系统增加了密切接触者追踪管理、流调管理（支持客户端图片、语音智能识别功能）和可视化的决策分析辅助等功能[7]，该系统在流调调查便捷性和数字化方面做了一些改进优化。

但无论国家疾控中心开发的EDDC，还是北京疾控中心开发的数字化流行病学调查系统。从本质上还是一个信息收集、处理解析、报告、存储的流程化信息系统，在个人隐私数据的确权、处理与应用、知情、流动等数字化、密码化保障方面还有不少欠缺。

流调数据安全存在严重木桶效应

从图一，不难看出，将流调的全过程，简单划分为：流调任务管理、现场调查和流调信息管理三部分，由于流调任务管理和流调信息管理处于网络和账户安全的双重保护下，个人隐私泄露的可能性低，安全度高。但在现场调查环节，由于缺乏数字化调查工具（往往还采用传统纸质表格开展调查）、参与人员多、法律意识淡薄等问题，个人隐私数据泄露风险高。现场调查的数据安全问题，成为了整个流调体系的短板。就目前爆出的大部分个人隐私泄露事件，也都是从现场调查环节泄露的。

数字化流调模型优化建议

实现流调信息的模型化、数字化和分布式采集

流调虽然是区（县）CDC的专业任务，但在重大疫情爆发期间，单靠CDC人员独立开展是远远不够的，还需要根据流调信息的类型，通过社会其他专业人员的辅助，分步骤来完成。所以，流调信息的采集天然是分散开展的，如果依然采用电子表格或纸质表格等传统纯文本、信息整体记录的方式（流调表格参看附件）无法降低个人隐私泄露风险，而建立基于流调信息记录的模型化、数字化和分布式采集体系就尤为重要。

流行病学调查过程以调查人员的聚类分析，可简单分为：个人核心信息调查、医学与病毒学调查和社会与传播调查等3部分，由于这3类的参与调查的辅助人员有所不同，例如：个人核心信息调查辅助人员主要是社区、派出所等人员；医学和病毒学调查主要是医院和实验室等人员；社会与传播调查需要电信、交通、公安等公共服务机构人员，所以个人基础信息、社会关系信息、行为轨迹信息和病情健康信息，并不会同时和由同一批调查员采集，而是进行模型化、对象化拆分后的分布式采集。由于社会关系信息、行为轨迹信息和病情健康信息对个人基础信息拥有依赖关联，所以数据体之间应采用匿名关联机制，可对个人隐私信息做Hash运算生成的唯一字符串作为匿名关联字段。采用匿名关联后的社会关系信息、行为轨迹信息和病情健康信息的采集，个人隐私的泄露风险将大大降低。见图三：

透过流调的个人隐私泄露事件探讨分布式数据安全思路

图三数字化流调信息模型

流调现场采集的数字化授权

无论在国家疾控中心信息中心建设的EDDC平台，还是北京疾控中心建设的数字化流行病学调查系统，目前都已经支持流调任务下发、流调问卷管理等功能，也支持基于如：电脑、Pad版等的流调客户端，实现问卷下载，离线填写、在线上传等功能[8]。见下图：

透过流调的个人隐私泄露事件探讨分布式数据安全思路

图四现场调查数字授权

从整体流行病学调查的数据安全控制机制来看，流调任务下发依靠的是网络授权，问卷管理依赖账户授权，而目前在数据现场采集中，依然是沿用了账户授权方式。这在平时个案疫情时并无不妥，但在重大传染病爆发期间的流调情况就有所不同，依赖账户授权机制的客户端，因为需要直接连接CDC流调系统，势必将可采集数据的账户限制在很少的范围，而在大面积流调实际工作中参与人员多、时间紧迫、工作量大，往往不是一个账户多人共同使用、采集、上传，就是多人填写纸质表格，再通过一人统一上传的尴尬境地，无论哪种方式，都加大了个人隐私泄露的风险和责任界定难的问题。

其实，我们可依托一台流调主客户端用于问卷的下载和上传，主客户端依然使用账户授权。而参与大面积流调的人员可以使用自有客户端，通过蓝牙、WiFi、ZigBee等近距通信技术，开展现场数字授权。数字授权（加密算法可采用ECC或者国密SM2）的公钥用于采集数据的资格验证；私钥用于数据签名后的责任界定。数据授权的验证通过具备账户授权的主客户端完成，并最终通过主客户端向后端流调系统上传加密数据。

采用现场流调数据授权方式是平衡流调数据采集的便捷性、高效性和数据安全性的有效方法。在保障现有中心化流调系统的网络安全和账户授权体系不变的情况下，提升流调实际的数据安全性和责任界定的准确性。

实现采集调查的责任链

在重大疫情期间的流调实践中，体现出任务多、参与人员和机构复杂、专业参差不齐、法律意识淡薄、调查任务并行开展的特点。如果按照非疫情期间的数据安全采集规范，严格控制调查人员的准入授权、金融级的数据安全和法律素质培养，势必会降低调查效率，也存在贻误疫情防控最佳时间的重大风险。

所以，采用强化事后追责体系是一种有效平衡流调效率和数据安全的手段，通过透明化的事后追责体系，间接警示参与调查的人员，严格执行个人隐私保护的相关条例，而一个具备公信力的责任链条是其中关键。通过区块链技术将基本信息调查、病例调查、家庭暴露调查、密切接触者调查、感染来源调查、聚餐暴露调查、工作单位暴露调查、重点场所暴露调查、行动交通工具调查和污染范围调查的每个过程，依据时间顺序记录在流调责任链中。通过区块链技术的信息防篡改、调查过程透明和多方协作的优势，可将流调期间的数据隐私泄露风险控制在一定范围内。见图五：

透过流调的个人隐私泄露事件探讨分布式数据安全思路

图五流调责任链

总结

成都女孩的个人隐私泄露问题，并不是个案，只是更多的隐私泄露没有被互联网放大而已。而在重大公共卫生事件中的个人隐私保护问题，长久以来一直也都是一个难题，这里牵涉了包括：个人权利和公众利益平衡的社会学难题，疫情期间的个人隐私保护和公众知情权的法律问题，数据主体、数据控制者和数据处理者的确权问题和政府监管的执法力度问题，以及同重大公共卫生事件的应急响应效率的平衡问题。简单说，就是该问题不是单靠立法就能解决的，本文建议的流调现场数据收集改进策略，也只是体系化解决该问题中的一个环节而已。由于重大疫情期间的流调，大部分都涉及“聚集性疫情调查”，呈现大面积的数据分散采集的特点，依靠传统账户授权机制保障数据安全，往往形同虚设。而采用开放式的数字化授权机制，可以在保障流调效率的前提下，通过流调数据的数字化模型建立，分散采集数据体，隐藏个人隐私信息；通过数字授权和区块链技术的数据宽进严出、透明的事后追责体系，间接降低个人隐私泄露风险。