深度：隐私保护计算技术指南

巴比特閱讀 144 2020-6-6 10:00

近年来，保护隐私的计算技术应运而生。某些类型的隐私保护计算技术允许对数据进行计算，同时使数据保持加密，或对执行计算的人员以及可能试图窃取该信息的对手不透明。

由于数据可以在计算过程中保持加密状态，因此该数据可以在分析环境中“端对端”保持加密状态，因此数据不会被盗用或滥用。

但是，由于接收端会对密文计算后的结果解密，从而获得所需要的数据分析结果。所以必须能够防止从解密结果中获得有用的信息，保护此类数据才有效。

目前出现的一些新型隐私保护计算技术解决了这一问题，从而避免了对计算结果数据中的输入数据进行反向工程的工作。

不幸的是，保护隐私的计算是有代价的：这些技术的当前版本在计算上昂贵，依赖于专门的计算机硬件，难以直接编程和配置或上述某种组合。

本系列文章描述了对敏感数据进行统计分析的隐私保护方法的动机；提出了适用此类方法的用例示例；并介绍了相关技术功能，以确保隐私保护，同时仍允许分析敏感数据。我们的重点是在数据处理过程中（不仅是在系统上静止或在系统之间传输时）保护数据隐私的方法。

机密数据的架构设置

为了说明在统计数据中使用隐私保护计算的方法，我们首先介绍两个使用机密数据的架构设置。这些是受世界各国国家统计局（NSO）使用隐私保护计算技术的启发。对于这两种设置，我们都讨论了涉众，数据流，隐私目标以及带有其隐私目标的示例用例。

示例设置1：允许NSO访问新的大数据源

图1说明了单个NSO希望访问敏感数据的设置。如图中左图所示，组织可以将这些数据作为直接调查的结果或通过从可用资源中收集数据来间接地提供给NSO。

有关个人的数据可以通过电话，信用卡或支付公司等中介收集并提供给NSO。个人数据也可能来自政府来源，例如收入调查或人口普查报告。此外，收集和交易此类信息的数据聚合商也可能向NSO提供数据。我们称此类为数据提供输入方的个人和组织为隐私保护计算。

图1：单个统计局的保护隐私的统计工作流

接收此类数据的NSO和其他组织（如图中中心所示）根据从输入方获得的收集数据进行计算，因此被称为“计算方”。

这种计算将收集到的数据转换为信息，即具有特定上下文和结构的数据组合，这些组合使数据变得有用。例如，这种计算的结果通常是统计报告，政府或非政府组织可以使用这些报告来做出有关稀缺资源分配的决策。

NSO计算产生的信息然后安全地分发给个人或组织，将其与他们现有的知识相结合，以发现可确定优先级和可操作性的模式。我们称这些接收者为“结果当事人”。

在整个简单的数据和信息流模型中，存在大量的隐私风险。

我们首先假设数据在输入方手中时是安全的，也就是说，我们假设这些方拥有自己的网络安全解决方案来保护其域内的数据。

因此，当数据在输入方和计算方之间传输时，会出现这种情况下的第一个隐私风险。TLS等现有技术通常用于减轻途中隐私风险。

当数据在计算方的范围内静止时，会发生第二个隐私风险。使用采用诸如``高级加密标准''（AES）之类的标准的技术进行加密通常可以缓解静态隐私风险。

当使用数据进行计算以产生信息时，会发生这种情况下的第三种隐私风险。在当前的实践中，数据在使用之前被解密。但是，这种解密使数据变得清晰起来，可能会被窃取或滥用。

除了上述风险外，在计算所得的信息与计算方一起驻留时，还有闲置的隐私风险，而在将信息分发给结果方时，还有在途隐私风险。这些风险的缓解方式与上述其他静息和运输途中的风险相同。

当结果方从计算方收到信息时，隐私风险将继续存在，因为此类信息可能仍然很敏感，并且在某些情况下可用于推断输入数据的值。诸如“差分隐私”之类的其他技术可能会减轻部分或全部风险。

用例示例：销售点交易数据。NSO寻求直接从多个站点的多个零售商那里收集产品价格数据，以计算计量经济统计数据。零售商希望防止其定价数据被大量泄露，因为如果竞争者获取这些信息可能会对其造成损害。

用例示例：移动电话数据。NSO从电信运营商那里收集手机位置数据，以用于生成旅游统计数据。除了必须始终保护一个人所在位置的高度敏感的数据外，电信运营商还应对数据的保护负责。

示例设置2：在多个NSO之间启用大数据协作

图2说明了在联合国协调下多个NSO合作的环境。可以说，这种情况是上述情况的延伸。但是，不同之处在于提供原始数据的个人和组织不再是输入方。相反，我们称它们为“数据主题”，因为在此设置中感兴趣的数据描述了它们。

在收集了上述设置中的数据并在本地进行统计分析之后，来自各个国家的NSO在此设置中充当输入方，以在联合国全球平台上彼此共享其结果和方法。因此，在这种情况下，全球平台将承担计算方的角色。

同样，在这种情况下，结果缔约方可能比在上面的第一种情况下更加多样化：全球的人民，组织和政府可能会收到全球平台生成的报告并从中受益。

图2：联合国全球平台的隐私保护统计工作流程

隐私威胁和隐私增强技术的作用

通常在有关隐私的一般性讨论中，信息安全从业人员会使用如下原则：隐私保护是使得信息不会“泄漏”到授权访问者的保护范围之外。

所有隐私增强技术（PET）都部分解决了以下普遍问题：“对于输入数据集敏感部分的数据分析会泄漏多少隐私？”。

泄漏可能是有意的（黑客，好奇的数据分析人员）或无意的（分析期间出乎意料的敏感结果）。无论如何，隐私增强技术都可以减少此类泄漏的风险。

重要的是要指出，我们描述的任何一种隐私增强技术，实际上没有一种已知的技术，可以为隐私问题提供完整的解决方案。

这主要是因为这种模糊定义的目标可能根据上下文具有不同的合适解释。需要了解他们各自的隐私定义之间的相互作用。这种集成始于威胁建模阶段，因为必须最终根据适用于每种技术的隐私定义的具体参数来设置隐私要求。

部署隐私增强技术的关键方面

部署PET的关键方面是必须将它们部署在尽可能靠近数据所有者的位置。最佳的隐私保证要求在将机密数据发布给第三方之前，数据所有者必须在本地使用PET。

这可以用一个简单的类比来解释使用访问控制。

通常，与数据打交道的组织部署基于角色的访问控制（RBAC），该访问控制仅授予授权人员访问数据的权限。

但是，这仍然假定组织本身具有对所有收集的数据的完全访问权限。因此，组织对所有数据负责。但是，有了正确部署的隐私增强技术，组织将能够在没有完全访问权限的情况下执行其职责，从而减少责任。

统计信息的隐私目标

在对以上两个设置进行了一般性描述之后，我们使用下面的抽象说明隐私目标。如图3所示，一个或多个输入方将敏感数据提供给一个或多个进行统计分析的计算方，从而为一个或多个结果方产生结果。

图3：隐私目标的抽象设置

现在，我们介绍三个自然的隐私目标，这些目标自然地与文档中稍后介绍的技术和隐私定义相关。

这些目标应被视为一般指南，具体部署可能具有特定的隐私要求，需要仔细评估。

不过，理想情况下，应该以提供具体隐私保证的方式解决此类要求，我们认为以下分类是很自然的该建模任务的起点。

输入隐私，输出隐私和政策执行的隐私目标是根据对隐私保护统计数据的研究改编而成的。

输入隐私

输入隐私意味着计算方无法访问或获取输入方提供的任何输入值，也不能在数据处理期间访问中间值或统计结果（除非已专门选择该值进行公开）。

请注意，即使计算方无法直接访问这些值，也可以通过使用诸如边信道攻击之类的技术来推导它们。

因此，输入私密性需要防止3种所有此类机制的保护，而这三种机制都将允许计算方推导输入。

输入隐私非常可取，因为它可以显着减少对输入数据库具有完全访问权限的涉众数量。从而减少了责任并简化了对数据保护法规的遵守。

输入隐私的概念在相互不信任的一方参与计算其私有数据的情况下特别相关，但是任何一方学习超过其规定的输出被视为违反隐私的情况。

再次参考上面的扫描仪数据示例，零售商将要求设置在适当位置以收集和计算价格指数的系统将为输入价格提供输入隐私权。

输出隐私

隐私保护统计分析系统在保证输出结果不包含输入方所允许的可识别输入数据的范围内实施输出隐私。输出隐私解决了测量和控制计算结果中存在的泄漏量的问题，而与计算本身是否提供输入隐私无关。

例如，在分析多方提供的分布式数据库以生成数据的统计模型的情况下，输出隐私与以下问题有关：可以从已发布的数据库中恢复多少有关原始数据的信息。

统计模型在模型的计算过程中各方之间交换的消息不会泄漏多少信息，因为后者与输入隐私有关。

在数据发布中，例如，在NSO希望向公众提供数据库而又不泄露用于导出发布数据的任何相关输入数据的情况下，强烈要求输出隐私。

如果隐私保护统计分析系统具有供输入方执行积极控制的机制，则该策略执行策略执行，该控制可以由计算方对敏感输入执行，并且可以将结果发布给结果方。这种积极控制通常以正式语言来表达，这种语言可以识别参与者及其参与规则。策略决策点将这些规则处理成机器可用的形式，而策略执行点则提供了确保遵循规则的技术手段。实际的统计系统很可能会结合多种技术来涵盖多个隐私目标。有关如何覆盖图3所示的整个系统的示例，请参见图4。输入隐私包括源数据，中间和最终处理结果。输入方负责保护自己的输入数据，但是一旦传输了数据，接收方就必须继续对其进行保护。我们考虑以下技术：