矩阵元孙立林:未来的数据融合基础设施基于多方计算构造
巴比特现场报道,10月27日,由万向区块链实验室主办的第六届区块链全球峰会在上海正式开幕。
在峰会现场,矩阵元创始人兼首席执行官孙立林分享了主题为《安全“多方”计算与数据融合基础设施》的演讲,同时他还提到了矩阵元的最新进展。
孙立林表示,无论是区块链还是隐私计算,本质上都是多方计算,而未来的数据融合基础设施正在基于多方计算构造,多方计算带来的变化,是把过去20年大家习惯的数据互联网变成了计算互联网。
以下为演讲全文:
大家好!非常有幸第六次在万向区块链峰会上给大家进行报告,2015年在不到30平米的会议室里挤了60多个人讨论区块链如何解决金融基础设施支付清算问题。2016年开始认真研究区块链底层;2017年第一次在峰会上提出了MPC可以进入商用,举办了第一次隐私计算的分论坛。2018年在舞台上有一个圆桌,当时和比特大陆的吴忌寒有很好的对话,当时他问我:“多方安全计算很好,但你认为需要多久?” 我当时的回答是:“如果进行大规模商用,需要五年的时间。”
去年在舞台上,我给大家介绍了物联网和区块链的结合,今天我想给大家汇报一下如何理解隐私计算、区块链以及数据融合基础设施。
很高兴今年有非常多的公司、机构、政府,包括人民银行范行长都提到了“安全多方计算”MPC,到底隐私计算能够发挥什么价值?和安全多方计算有什么关系?
MPC的本质是多方计算,大家看到的零知识证明、同态等其他算法,广义上都可以看作是MPC的一种,而狭义的MPC是特地构造的场景。无论是区块链还是隐私计算,本质上都是多方计算。未来的数字融合基础设施正在基于多方计算构造。
从数据互联网到计算互联网
这是我们对整个事情的理解,多方计算带来的变化是把过去20年大家习惯的数据互联网变成了计算互联网。在今天大家所习惯的互联网公司主导的时代,所有数据被全量、分量地迁移到云端,数据被迁移了,这件事情会导致隐私得不到保护,数据也不可能成为资产。
互联网公司利用了数据,不仅剥夺了数据自然权利,也谋求了暴利。在美国,Facebook被罚了将近50亿美元,Google被11个州提出了反垄断诉讼。实际上,都是针对数据垄断来的。
而在我们构造的安全多方计算前提下,变化来了,数据留在本地,计算发生了迁移,计算从远端、对端到数据端来算,不仅看不到数据、拿不走数据,甚至看不到数据的计算过程。
有一个很简单的原理证明现有的互联网难以维系了,全量数据越来越大,负担不起大规模的网络传输、成本,只能在本地处理。
我们不能泛泛地强调数据的个人属性,很难证明几乎所有数据都完备地属于你个人,当物理生命站在舞台上的时候,这个时间我只在这里,可是数字生命不是。各位听我报告的时候可能还在看微信,你的ID可能投射在微信里,可能你还在大众点评找吃饭的地方,你的另外一个ID投射在大众点评里。实际上我们已经被离散化了。
这时候,很多数据资产和具体的场景和应用有关,数据的公共属性非常非常强,而绝大多数个体、机构没有能力提供完备的数据存储、安全保护、计算能力,这意味着在未来相当长的时间里,绝大多数人和机构仍然会选择数据处理的代理方、代理人,代理人会在受托的情况下处理数据,按照承诺和契约对密态下的数据进行计算,分取相应的利润,类似于今天房产中介、投行类服务。
数据本身是不可被定价的,可以被定价、可以被交易的不是数据,而是数据的可计算部分、可计算价值,只有可以被算法计算的部分才有意义,可以被计算估值、评级、定价、交易,不能简单地理解这件事情。
今年新基建以后所有人都在提新的基础设施,但我想这没有那么容易,虽然今年有特别多朋友进入了隐私计算、数据融合的赛道和战场。
上位法还没有完全确立,大家看到了个人信息保护法的文本,还有密码法、网络安全法等3-5个上位法都会从不同的角度约定数据的权益和大家如何使用它。上位法在法律上的数据权属没有确定之前,每个行业的监管都是非常谨慎的,所以人民银行才有金融数据中心、征信中心的布局,出现大量的沙盒。
去年之前,真的没有太多人听得懂我们在说什么,今年大量的金融机构找到我们要做隐私计算,要对数据进行安全处理。所以合规性非常重要,今天的数据格式化、标准化在没有得到完备处理之前,基本倾向于认为只有金融行业相对可处理,其他的医疗、政务往往面对的问题是数据质量非常不够的,很难被算法所处理,工作量太大了。类似于大家说的“人工智能”和“工人智能”的关系。
今天绝大多数人都还在第一阶段——技术问题,技术问题的难度远远超出大家的想象。
全生命周期是非常常用的说法,一定是从入口出现的,无论是IOT还是IUOT,最后我们理解区块链和隐私计算,作为多方计算不同层面的基础设施组件,就是把数据当成了资产,本质上是新时代的金融基础设施,几乎可以对应到今天银行的存贷汇业务处理交易。
非常感谢2017年参与了人民银行数字银行研究所密码课题的工作,当时央行领导提出的理念我们一直在推进,不仅是对数字货币,对数据也是一样的概念。当我们分析问题的时候,在真正新基建时代的根本矛盾是什么?
新基建时代的三个根本矛盾
这个概念从2017年就在提,总结为三个矛盾:
(1)个体隐私Vs中心监管。
我们认为绝大多数的机构和个体需要在国家、政府发放的持牌机构进行完备的强实名身份注册。与此相对应的是,你只要在这个地方注册了,没有必要在其他对等的商业实体做注册,这是今天各位遇到的问题,只要你头天买了一双鞋,抖音会天天给你推鞋,没有人愿意看到这种问题。解决方案是通过持牌业务解决,解决的问题叫做“数字时代的身份注册中心”,解决的是分布式身份问题。
今天在座各位的身份证时代已经过去了,ID分布在常用的app里,像滴滴、微信、美团等,用不同的身份组成了分布式的数字化的我们。
(2)交易隐私Vs登记确权。
不仅在过去的四年里没有得到改变,而且愈演愈烈,今天的互联网公司不仅拿走了身份信息,也拿走了交易信息,把所有交易托管在他的平台上,按照金融监管的逻辑,这件事情应该被分拆的。不管是科技公司还是互联网公司,不可以既处理我的数据,又处理我的身份,又处理我的交易,这是不可以的,应该完全被分拆。这样才能实现分布式的用户画像,美团、滴滴、支付宝、微信都只知道你的一部分,怎么有完备的用户画像给金融机构、政府?让你需要的时候对你进行相对精准的刻划,刻划是付出一部分数据的可计算部分。由对手方计算你,当然一定是在密文密态下来做的。
(3)数据隐私Vs协同计算。
不论是银政宝还是政府大数据中心,还是各个委办局,都不太愿意把数据拿出来交给大数据中心或单一的数字机构,唯一的办法就是通过广义的MPC多方计算来处理问题。
这三个步骤已经非常清楚了,从分布式身份——分布式用户画像——分布式信用体系。
在物理世界只知道你的名字和身份证号,但是在数字世界里,没有人可以这样识别你是完备的混成的松偶合的系统。
今年去年和各地政府交流过程中建议充足今天的数据治理架构,按照新的架构解耦原有的数据交易平台,这是对城市、国家数据治理非常大的改变,相信这几乎是唯一的道路。
要做数据要素的“超级清算方”,首先有数据入口,要解决数据质量的问题,规模、质量、数据标签很复杂,不完全是技术问题,除了从物联网、工业互联网的入口拿到数据外,更多靠手工、大量人力来处理。
第二是数据交换网络,区块链本质是数据交换网络,交换网络里可能解决的问题是区块链是公共基础设施。我个人观点不认为把所有的交易都放在一条链上是正确的选择,这是难以为系的。大额的小额的、高频的低频的性能是不同的,没有必要放在一条链上,而是类似于以太坊这种全球性的区块链系统能够成为公共基础设施,就像TCPIP一样,在以太坊上长出具体的机构间交易平台,具体的场景是在具体的链上实现的,在业务链上实现业务,而非完全堆到一条链上。
光有链没有用,我特别同意Vitalik的观点,过去这么多年一直有人问我区块链有什么用?为什么有区块链?有什么杀手问题?我通常不回答这个问题,区块链本身就是金融基础设施,就是全身的物种,用或者不用,没有第三个选项,也不用问我好用不好用。
第三是协同计算,当链提供了支付清算高度交互的平台后就会出现计算,我个人的理解是不能泛泛地说信任Trust意味着什么,很多信徒都会说区块链是信任网络,这不够精准,我的定义是可度量的制度性的交易成本。
比如说银联,银联网络的制度性交易成本可以简单地理解牌照成本加上银联每人的收入,这都是度量的成本,什么是信任?持牌以后信任你,怎么度量成本?就是每年网络产生的成本和费用。
列举了三件事情:可验证的安全性、可持续的经济模型、可度量的制度性交易成本。在基础上再做隐私计算、分布式AI数据进行处理。
毫无疑问金融行业是最主流的应用,数据最标准化、需求最强烈、合规性要求最高,最有钱。很意外地看到在广告营销互联网领域的需求非常剧烈,在跟大量大数据合作过程中发现,即便是最基本的标签业务在排名前十名的大数据公司里,每天的标签交换超过了百亿笔。即便是微信支付也不过是十万亿笔。什么叫数据时代?看量就可以了,足够的量才能证明时代的到来。最近在配合公安部进行反诈的业务,今天社会在反诈业务上遇到的挑战已经超出了大家的想象。
我们跟很多医院在做合作,坦率说数据标准化还做不到这么完备。
“数据融合基础设施”的四大基本设计理念
“数据融合基础设施”有基本的设计理念,今天的合规不完备、立法不完备、商业模式不完备、技术不成熟的时候,基于什么理念构造基础设施?四个概念:
(1)可管控的新的底层技术。
比如说以太坊链上不能支持KYC和反洗钱的,金融机构很难用,才会有新的业务链出现解决问题。
(2)可验证。
科学的问题是可证伪的,但这句话不准确,更准确的话是系统每一步都可验证。如果大家对区块链有所了解的话就是可验证的系统,出块的过程都是可验证的,包括将来基于数据的多方计算和隐私计算的处理都是可验证的。
(3)可计算。
如果数据没有可计算的价值,那数据就没有价值,好比别人挖出了黄金,而你挖出了一堆石头,这是完全不一样的,并不代表数据量越大越有价值,而是可计算部分越有价值才能更体现数据本体的原生成本和效益。
(4)可度量。
一定要创生出一套新的定价和激励模式来处理,所以我们用了大量的新技术,很多还不成熟,像VC可验证计算是非常复杂的。
基于这四个原则,矩阵元希望成为技术运营部分,接入大量数据。但在网络里还需要有准入、交易、支付、清算、权益分配。我们和政府部门、国家机构在探讨的时候提出了一个概念——贡献度。各个委办局、各个军工种、各个行业都提供数据的时候怎么算功劳?我怎么知道我贡献的算多少?这件事情要有权益的分配和定价基准,用区块链来做密态下基于合约的清算是非常有价值的,不能泛泛地说隐私计算+区块链就可以做生意了,这是不对的。
数据价值体现还是要依赖生态系统出现,所以有比较长的过程。
这是基础设施的技术架构,从最底层做硬件、密码学技术,往上有联盟链系统。最近在电子标准院的检测验证上,PlatONE的99条标准通过了93项,另外6项是纯业务,我们没有进入具体的业务场景。93项场景非常细,感谢标准院的支持。但远远不够,从实际经验来看至少还有100项标准没有被测试。
从上到下的技术栈是非常非常烧钱的,如果没有足够长期视野投入,没有足够耐心等待这件事情就不会有好的结果,它不是可以一蹴而就的事情。
老朋友都知道我们从2017年进入MPC领域,感谢战友和股东们的信任,我们一直在这个战场持续地投入科研。最近在某家金融基础设施机构的测试里,MPC性能远超所有同行业,几乎超过了20倍以上,在特定的业务场景超过500到600倍,以至于他们很惊讶你的优势过于明显是不是假的?其实没有真的假的,就是你要持续不断地投入,如果只是拿开源代码来改很难改出效果,就是从编译器重新重写,并且过程非常复杂。我们很坚定地相信开源理念,所有的代码、技术架构都是开源的。
最近在和Google进行非常好的探讨,做的最重要的工作之一就是把系统完全拆掉,重构了系统让所有AI的开发者可以完备地使用密态安全多方的系统、使用隐私计算。
技术前进是有过程的,早期的3-5年非常慢,一旦过了拐点,加速会超出我个人的想象。希望跟大家分享我们对数据融合基础设施的理解和实践,供大家参考。
2016年定的公司Slogan是“为了数据的流动”,希望给各位一点点的启发和帮助,也希望跟大家开展各种合作,谢谢大家!
微信扫描关注公众号,及时掌握新动向
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场