孙立林：安全多方计算与数据融合基础设施的设计理念

万向区块链阅读 1440 2020-11-23 16:33

前言：

在数字化时代里，区块链作为新型基础设施，数据安全是重中之重。安全多方计算，一直以来都被视为隐私数据保护较好的解决方案。矩阵元创始人兼首席执行官孙立林，在第六届区块链全球峰会上，根据矩阵元的实践经验，分享了“安全多方计算与数据融合基础设施的设计理念”。

大家好！

非常有幸第六次在万向区块链峰会上给大家进行报告，回顾历届峰会，2015年在不到30平米的会议室里挤了60多个人讨论区块链如何解决金融基础设施支付清算问题。2016年开始认真研究区块链底层；2017年第一次在峰会上提出了安全多方计算（MPC）可以进入商用，举办了第一次隐私计算的分论坛。2018年和比特大陆的吴忌寒有一场很好的对话，当时他问我说：安全多方计算技术非常好，你认为需要多久才能落地？我当时的回答是如果进行大规模商用需要五年的时间。

去年在舞台上给大家介绍了物联网和区块链的结合，今天我想给大家汇报一下如何理解隐私计算、区块链以及数据融合基础设施。

很高兴今年有很多的公司、机构、政府，包括前段时间人民银行领导都提到了安全多方计算。那么到底隐私计算能够发挥什么价值？和安全多方计算又有什么关系？

MPC的本质是安全的“多方计算”，大家看到的零知识证明、同态加密等其他算法，都可以看作是广义的MPC，而狭义的MPC专指GC+OT算法构造的算法。无论是区块链还是隐私计算，本质上都是基于“多方”的计算。未来新一代的数字融合基础设施正是基于这样的基本理念构造的。

密码学带来的最大变化是把过去20年大家习惯的“数据互联网”变成了“计算互联网”。在今天互联网公司主导的时代，所有数据被全量、分量地迁移到云端，数据被迁移了，随之会导致隐私得不到保护，数据也不可能成为资产。

互联网公司利用了数据，不仅剥夺了个人数据自然权利，也谋求了暴利。在美国Facebook被罚了将近50亿美元；Google被11个州提出了反垄断诉讼。实际上，都是针对数据垄断。

而我们在安全多方计算前提下构造的数据融合基础设施带来了变化，数据留在本地，计算发生了迁移，计算从远端、对端到数据端来算，不仅看不到数据、拿不走数据、甚至不知道数据的计算过程。

所以整个互联网会发生非常大的变化，有一个很简单的原理证明现有的互联网已经难以维系了，因为全量数据越来越大，负担不起大规模的网络传输成本，只能在本地处理。

我们不能泛泛地强调数据的个人属性，很难证明几乎所有数据都完备地属于个人，当物理生命站在舞台上的时候这个时间我只在这里，可是数字生命不是。各位听我报告的时候可能还在看微信，你的ID可能投射在微信的数字空间里，可能你还在大众点评找吃饭的地方，你的另外一个ID投射在大众点评的数字空间里。实际上我们已经被离散化了。

这时候，很多数据资产是和具体的场景和应用有关，数据的公共属性非常强，而绝大多数个体、机构没有能力提供完备的数据存储、安全保护、计算能力。这意味着在未来相当长的时间里，绝大多数人和机构仍然会选择数据处理的代理方或代理人，这些代理人会在受托的情况下处理数据，按照承诺和契约对密态下的数据进行计算，分取相应的利润，类似于今天房产中介、投行类服务。

有一个非常关键的概念就是数据本身是不可被定价的，可以被定价、可以被交易的不是数据，而是数据的可计算部分、可计算价值。只有可以被算法计算的部分才有意义可以被计算、估值、评级、定价，交易。

今年「新基建」以后所有人都在提新的基础设施，但我想并没有那么容易，虽然今年有特别多朋友进入了隐私计算、数据融合的赛道和战场。

目前上位法还没有完全确立，大家看到了个人信息保护法的文本，还有密码法、网络安全法等3-5个上位法都会从不同的角度约定数据的权益和告诉大家如何使用它。上位法在法律上的数据权属没有确定之前，每个行业的监管都是非常谨慎的，所以人民银行才有金融数据中心、征信中心的布局，才会出现大量的实验「沙盒」。

今年大量的金融机构找到我们要做隐私计算，要对数据进行安全处理，这和去年形成了鲜明的对比。所以合规性非常重要。今天的数据格式化、标准化在没有得到完备处理之前，基本倾向于认为只有金融行业相对可处理，其他的行业往往面对的问题是数据质量不够，很难被算法处理，类似于大家说的「人工智能」和「工人智能」的关系。所以数据质量是大规模商用的前提。

今天绝大多数人都还在第一阶段——技术问题，技术问题的难度远远超出大家的想象。

全生命周期是非常常用的说法，一定是从入口出现的，无论是 IoT 还是 AIoT，最后我们理解区块链和隐私计算作为多方计算不同层面的基础设施组件，就是把数据当成了资产，本质上是新时代的金融基础设施，几乎可以对应到今天银行的存贷汇业务处理交易。

那么在真正新基建时代的根本矛盾是什么？总结为三个矛盾：

1、个体隐私 Vs 中心监管

我们认为绝大多数的机构和个体需要在国家、政府发放的持牌机构进行完备的强实名身份注册。与此相对应的是你只要在这个地方注册了，没有必要在其他对等的商业实体做注册，这是今天各位遇到的问题，只要你前一天买了一双鞋抖音就会天天给你推鞋，没有人愿意看到这种事情总是发生。也没有人愿意在所有数字空间暴露自己的身份，其解决方案是通过持牌业务解决，解决的问题叫做「数字时代的身份注册中心」，解决的是分布式身份问题。

今天在座各位的身份证时代已经过去了，ID 分布在常用的 App 里，像滴滴、微信、美团等，用不同的身份组成了分布式的数字化的我们。

2、交易隐私 Vs 登记确权

这个矛盾不仅在过去的四年里没有得到改变，而且愈演愈烈，今天的互联网公司不仅拿走了身份信息，也拿走了交易信息，把所有交易托管在它的平台上，按照金融监管的逻辑，这件事情应该被分拆的。不管是科技公司还是互联网公司，不可以既处理我的数据又处理我的身份又处理我的交易，这是不可以的，应该完全被分拆。这样才能实现分布式的用户画像，美团、滴滴、支付宝、微信都只知道你的一部分，怎么有完备的用户画像给金融机构、政府？在你需要的时候对你进行相对精准的刻划，刻划是付出一部分数据的可计算部分。由对手方计算你，当然一定是在密文密态下来做的。

3、数据隐私 Vs 协同计算

最后一个是机构间的交易，不论是银行、政府大数据中心、委办局，都不太愿意把数据拿出来交给大数据中心或单一的数字机构处理，唯一的办法就是通过广义的 MPC 来处理问题。

这三个步骤就非常清楚了，从分布式身份——分布式用户画像——分布式信用体系。

在物理世界只知道你的名字和身份证号，但是在数字世界里没有人可以这样识别你，这是一个完备的、混成的、松偶合的系统。

近年我们和各地政府交流过程中建议重组今天的数据治理架构，按照新的架构解耦原有的明文下数据交易平台，这是对城市、国家数据治理巨大的改变，但我相信这几乎是唯一的道路。

下面讲一下数据要素的「超级清算方」的概念，要做数据要素的「超级清算方」，首先要有数据入口，并要解决数据质量的问题，包括规模、质量、数据标签等。这是一个很复杂的事情，不完全是技术问题，除了从物联网、工业互联网的入口拿到数据外，更多的是靠手工、大量人力来处理。

第二是数据交换网络，区块链本质是数据交换网络、公共基础设施。我个人观点不认为把所有的交易都放在一条链上是正确的选择，这是难以维系的。不同机构间大额的、小额的、高频的、低频的交易对链性能的要求是不同的，没有必要放在一条链上，而是类似于以太坊这种全球性的区块链系统能够成为公共基础设施，就像 TCP/IP 一样，在公共基础设施上长出具体的机构间交易平台，具体的场景，是在具体的链上实现的，在业务链上实现业务，而非完全堆到一条链上。

所以只有链是没有用的，我特别同意 Vitalik 的观点，过去一直有人问我区块链有什么用？为什么是区块链？有什么杀手应用？我通常不回答这个问题，区块链本身就是金融基础设施，是一个全新的物种，用或者不用，没有第三个选项。

第三是协同计算网络，当链提供了支付清算高度交互的平台解决了制度性交易成本后就会出现计算，我个人的理解是不能泛泛地说信任意味着什么，很多信徒都会说区块链是信任网络，这不够精准，我的定义是可度量的制度性的交易成本。

比如说银联，银联网络的制度性交易成本可以简单地理解为牌照成本加上银联每年的收入，这都是度量的成本，什么是信任？持牌以后就信任你，怎么度量成本？就是每年网络产生的成本和费用。

这里我们列举了三件事情：可验证的安全性、可持续的经济模型、可度量的制度性交易成本。在此基础上再做隐私计算、分布式 AI 数据进行处理。

毫无疑问目前来看金融行业是最主流的应用，数据最标准化、需求最强烈、合规性要求最高。我们很意外地看到在广告营销互联网领域的需求也非常剧烈，在跟大量大数据公司合作过程中发现即便是最基本的标签业务在排名前十名的大数据公司里，每天的标签交换超过了百亿笔。这是什么概念？即便是微信支付也不过是十多亿笔。什么叫数据时代？看量就可以了，足够的量才能证明时代的到来。最近我们也在配合公安部做一些反诈的业务，这里出现了大量的隐私保护需求，今天社会在反诈业务上遇到的挑战已经超出了大家的想象。

下面讲一下「数据融合基础设施」的基本的设计理念，我们提出四个概念：

1、“可管控”的底层技术基础设施

比如说以太坊链上是不能支持 KYC 和反洗钱的，金融机构就很难用，才会有新的业务链出现解决问题。

2、“可验证”的基础设施安全性与一致性

我们经常听到一句话「科学的问题是可证伪的，宗教是不可证伪的」，但这句话不准确，更准确的话是系统每一步都可验证。区块链就是可验证的系统，出块的过程都是可验证的，包括将来对数据的基于多方计算和隐私计算的处理都是可验证的。

3、“可计算”的数据资源与计算需求

如果数据没有可计算的价值，那数据就没有价值，好比别人挖出了黄金，而你挖出了一堆石头，这是完全不一样的，并不代表数据量越大越有价值，而是可计算部分越有价值才能更体现数据本体的原生成本和效益。

4、“可度量”的数据交易经济模型和激励机制

一定要创生出一套新的定价和激励模式来处理，所以我们用了大量的新技术，很多还不成熟，像 VC 可验证计算是非常复杂的。

基于这四个原则，矩阵元做了很多工作。在整个网络里还需要有准入、交易、支付、清算、权益分配。我们和政府部门探讨的时候提出了一个概念——贡献度。各方各业都提供数据的时候怎么算功劳？我怎么知道我贡献的算多少？这件事情要有权益的分配和定价基准，用区块链来做密态下基于合约的清算是非常有价值的，不能泛泛地说隐私计算+区块链就可以解决问题了，这是不对的。

数据价值体现还是要依赖生态系统出现，所以有比较长的过程。

下面讲一下技术架构，从最底层做硬件、密码学技术，往上有联盟链系统。我们的联盟链产品PlatONE最近在电标院的功能检测中99条标准通过了93项，另外6项是纯业务场景。但这还远远不够，从实际经验来看至少还有100项标准要被测试。如果没有足够长期的视野和投入，没有足够耐心等待这件事情就不会有好的结果，这不是可以一蹴而就的事情。

老朋友都知道我们从 2017 年进入 MPC 领域，感谢战友和股东们的信任，我们一直在这个战场持续地投入科研。最近在某家金融基础设施机构的测试里，MPC 性能远超所有同行业，几乎超过了20倍以上，在特定的业务场景超过500到600倍，以至于他们很惊讶说：你的优势过于明显是不是假的？其实没有所谓真假，就是你要持续不断地投入，如果只是拿开源代码来改很难有扎实的积累。真的就是要从基础算法到编译器开始全部重写，过程非常复杂。我们很坚定地相信开源理念，所以矩阵元所有的代码、技术架构都是开源的。

最近我们在和Google进行非常好地探讨，做的最重要的工作之一就是把TensorFlow完全解构来支持隐私计算的基础能力。通过重构TensorFlow，让所有AI的开发者可以完备地使用密态安全多方计算的系统、使用隐私计算来支撑大规模的分布式AI的开发与实践。

技术前进是有过程的，早期的 3-5 年非常慢，一旦过了拐点加速会超出想象。今天与大家分享我们对数据融合基础设施的理解和实践，供大家参考。