肖风:区块链加上密码学算法将会给 AI 带来新天地
原文标题:《肖风:分布式 AI 平台将解决数据难题》
人工智能和区块链两个话题碰在一起,数据的产权意识、价值以及数据隐私保护意识的觉醒和 AI 的发展是密不可分的,或者可以说是 AI 带来的。
随着 2016 年人工智能第三次浪潮起来,人们突然发现原来数据有这么大作用,数据能够创造这么大价值。人们自然要问:我的数据在哪里?我的数据得到妥善保护了吗?商业机构用我们的数据创造了价值,这些价值难道和我们一点关系都没有吗?
有关数据的隐私保护、数据的价值分享和数据的共享,我总结了一下,最热门的有这样几个方向:
首先是数据的产权确认。各位可能都有很多数据遗留在互联网上,这些数据是属于我们的,还是属于互联网平台的?或者是属于我们和互联网平台共同拥有的?怎样确认我们遗留在互联网和其它平台产生的数据?比如医疗平台上你的基因数据、病历数据,怎么确定数据的主权是属于你还是属于谁?
第二个方向是数据的隐私保护。大家可能不想把某些数据这么直白地、这么公开地在互联网上被传播甚至被买卖,所以我们要讨论数据的隐私保护。
再就是数据的协同计算。数据如果不被使用根本就不会有价值,但现在我们可能没有任何一个单一平台能够拥有多维的、多元的数据满足人工智能算法需求。电商平台可能有电商的数据,社交平台可能有社交关系的数据,但如果这些数据能够协同计算,那么对 AI 来说一定是功莫大焉。
但没有人愿意在现在的互联网的环境下把自己的数据交出去,因为交出去就等于断送,别人不可能拍着胸脯保证说这些数据我绝对不会偷看,绝对不会传播出去。即使有这种主观的善良的意愿,技术上也不一定能够做到,无法保证数据得到妥善的保管。那么怎样在既打消这种不信任的念头,同时又能够让这么多维、多元、多层次的数据在一起协同计算,共同共享,得出具有更大社会福利的 AI 成果呢?这确实也是一个话题。
第四是数据的价值分享。既然这些数据创造了很大的商业价值,我是不是应该从中得到我应该得到的那一份?现有的互联网架构下没有人给你。当然,互联网平台也用另外一种方式稍微返还了一部分利益,比如免费使用,这是因为要收集你的数据,你可以得到一些免费的使用,也许这是一种价值间接的体现。但有没有什么更直接的体现,能够激发大家愿意贡献更多的数据来帮助 AI 达到更好的结果?激励机制是数据共享或协同计算必须要建立的,没有很好的激励机制我们就很难相信,或者很难想像别人会平白无故地把隐私数据贡献出去,让某个科学家或让某个商业机构依据这些数据来训练机器、优化算法,得到一些结果。
今天很多人工智能学家都在谈怎么用数据。这些问题是 AI 的发展带来的,但 AI 本身不能解决这些问题。如果这些问题不得到解决,那么对 AI 来说是一个巨大的缺陷,尤其是如果我们不能用一个很好的激励机制去激励那些数据的持有人把自己的数据贡献出来,这对人工智能的发展来说也是一个巨大的缺陷。
举个例子,科学家如何征求 1 万个特殊病的案例?可以去找医院,这也是很困难的事情。但如果用区块链技术,用一个分布式的 AI 平台,并不需要找中间商,可以用你的智能合约加上隐私保护的算法加上激励机制,那些互不认识的 1 万个陌生人就会愿意把自己的病历资料贡献给这个平台,让某个科学家计算出来结果,然后智能合约会保证你能得到事先承诺给你的回报,并且你所有数据能够得到很好的隐私保护。
如果能够做到这样一个分布式的 AI 平台,可以想像 AI 技术、AI 行业会和今天讨论的不一样了。今天所有人工智能学家讨论的都是基于中心化的机制、中心化的数据平台去训练 AI 算法,得到一些结果。其实这是一方面,另一方面就是能不能用分布式、去中心化的 AI 平台把中心化平台无法提供,或者不能提供的数据都搜罗出来,然后达成我们想要达到的研究目的?
有很多密码学家在这方面做了很多努力,并且有了很好的成果。
首先,哈希函数:哈希函数能够证明一串数字或者一本书是不是被篡改过,不管是一段话还是一本书,这么多的内容哈希以后,得到的哈希值是一样大小的;但如果一本书当中改变了其中的一个标点符号,最后得到新的哈希值和原来就会有巨大的不同,所以能够证明后来的东西是不是被篡改过。哈希函数可以得到很好的保证,不需要写保证书,也不需要签合同,只要检查两个信息的哈希值是不是一样,就知道数据是不是被篡改过。
非对称加密:所谓的公钥、私钥的非对称加密算法,能够保证数据的安全、完整和匿名,某种程度上也能够对数据的产权进行确认,因为区块链上面唯一的产权确认的依据就是拥有这个数字或者密码学帐户的私钥,拥有了私钥,就拥有了帐户里面的所有价值物和数据。
零知识证明:这种密码学算法能够在把数据加密之后,在密文状态下让第三方验证者验证数据的真实,或者状态是否存在。
同态加密也是一样,数据加密之后,在密文的状态下,第三方仍然可以就这些数据进行某种程度上的分析和处理,最后由拥有密钥的人从这里得到想要得到的结果。也许这个密钥持有者并不是数据的所有者,因此也不会碰到原始的数据,或者说不会碰到明文的数据。
最后是安全多方计算,就是有一组互不信任的陌生人,比如前面讲到的某种特殊病患者。这样一组互不信任的参与方,数据拥有者可以把自己的数据在加密以后贡献出来,让别人来做协同计算,最后大家可以共享计算结果。数据永远都不会离开本地,永远无法推导出所有的原始数据。
其实密码学算法已经存在很长时间了,但是被用来做数据的隐私保护和隐私保护之后的数据协同计算是最近两年蓬勃发展的一个事实。
但是光有密码学算法并不能够完整地达到帮助 AI 更好地利用这些数据的目的。比如数据确权方面需要借助其它的技术,数据的真实性方面哈希函数可以证明是否被篡改过,但只有哈希函数并不能够使得数据真的不可撤销、不可篡改和可追溯。
第三,数据真正要有价值就必须把数据资产化,数据没有被资产化就无法就数据进行交易,无法给数据确定价值,也无法收到贡献数据以后应该得到的回报。数据资产化是数据交易的基础,但是数据资产化的基础是数据的确权。
数据存储,尤其是去中心化计算,或者所谓的点对点、分布式、边缘以及多方协同计算这样的情形,如何建立一套价值分配和激励机制,让那些无关但拥有某方面数据的人愿意把数据贡献出来?这种价值分配和激励机制密码学算法也不能解决。
什么新的系统加上密码学算法才能解决呢?有人说互联网能够解决,但互联网不能解决前面的几个热点问题。
首先技术上,我们不能相信一个互联网平台确实能够确保数据的安全和数据的隐私。前段时间我们有看到新闻,一家著名的连锁酒店,几亿的住客数据被盗取。今天的新闻好像是泄露数据的人被抓到了,公安部门说他没有能够完成交易,数据没有被卖出去。所以技术上并不能够证明互联网平台能够做到保证这些数据的安全和隐私。
第二,在利益上,大家都在用这些数据赚钱,没有人在意数据的隐私保护或者产权归谁。
第三,意愿方面,互联网平台希望掌握数据的主权,而数据的拥有者希望数据的主动权掌握在自己手里,使用数据就应该得到相应许可,并分享利用数据获得利益的一部分。
最后,在管理上。此前也有新闻报道,一家非常著名的物流公司的一个工程师无意当中把一个数据库删掉了,导致这家很大的物流公司整个停摆了 590 分钟,整个系统才得以恢复。
因此,密码学算法不能解决这些问题,互联网技术也一样不能解决。
谁能解决呢?区块链是可以解决的,因为区块链和互联网有很大的不同。有人说区块链是第二代互联网,我觉得不是,区块链和互联网有巨大的区别,主要是这几个方面:
互联网刚出来的时候,美国的媒体把互联网叫做「信息机器」。确实,互联网使得信息的产生、交流、传递成本极低,低到边际成本是零,传递速度极快,信息的获取也极端方便。区块链被人们叫做事实机器,因为它的分布式数据库的特点,区块链的数据库上面任何数据只能添加,不能撤除,不能篡改。因此数据一旦登记到区块链上面,我们完全不需要担心是不是被改过,所以叫做事实机器。一个事实机器显然更有利于 AI。
第二,互联网是一种中心化的信任机制,你必须相信互联网平台,说你的数据在我这里是得到妥善保护的,我是不会随便碰你的数据的。但是到现在为止几乎没有人敢彻底相信任何一个互联网平台不偷看你的数据,或者你的数据能够在那里得到妥善的保护。区块链是一个去中心化的信任机制,不需要信任任何人、任何机构、任何组织,只需要信任这套数学算法,这套数学算法不会偷窥你的数据,也不会擅自利用你的数据。靠着一条共识算法来建立的分布式信任机制,显然要比一个中心化的互联网机制好得多。
第三就是激励相容。数据的拥有方、算法的提供方、算力的提供方和 AI 的需求方在区块链上面完全能够做到激励相容,每个人各得其所,不会有激励不相容的现象发生。所以在激励机制上区块链和互联网有巨大的不同,互联网平台是多方参与的,但是我们无法在互联网平台建立很好的激励相容机制,区块链上面可以建立这样的激励机制。
第四,互联网上的应用叫做 App,区块链上的应用叫做 Dapp,D 就是「去中心化」(Decentralized)。App 和 Dapp 的最大区别是什么?比如说,如果你用出版社加上新华社的渠道来出版一本书,那么你可能得到这本书售价的 10%,那是你的版税。但如果通过互联网平台,比如腾讯的阅文平台,出版任何的读物,收入的 25% 要归平台。这意味着作者本人可以得到这本著作所有收入的 75%。但在区块链上面的 Dapp 上出版这样的读物和著作,所有的收入 100% 归你,没有任何人会在中间抽取你的费用。这是一个去中心化的商业模式,我们把它叫做分布式商业。
第五,互联网在利益上希望数据独享,所以在现有的技术状况下很难看到不同的互联网平台会把数据共享出来,这实际上妨碍了 AI 的进一步发展。但是在区块链上面是数据共享的,因为所谓分布式数据库之上的分布式记帐系统本来就是一个共享记帐系统,帐本系统本来就是相关参与方在一个数据库当中记录大家相关的所有数据,可以同步给所有的参与方。
这些是互联网和区块链很大的区别,可以看到区块链加上密码学算法可能是一对绝配。区块链的链式数据库可以保证数据的真实性。区块链作为事实机器,它和互联网这种信息机器最大的不同是,任何数据在区块链上面不可能被「双花」,所谓「双花」就是数据可以不经许可,没有成本,随便复制。
我们把区块链叫做价值互联网。我们在区块链上面发送比特币,如果像发送邮件一样,一个比特币可以发给一万个人,本地还保存这样的邮件,这个世界就乱了。区块链技术有一套机制防止双花,当你宣称你要利用区块链寄送一个比特币给别人,这个系统会保证你的比特币一定会被减掉,而且你的比特币只能给你指定的那个得到,不可能像邮件那样一千个人、一万个人都能得到。防止双花,数据才能成为资产。如果像互联网上面信息可以这样无成本、不经许可、随便扩散,这种时候数据不可能成为资产。
再就是点对点的交易系统。区块链就是一个点对点的交易系统。这种机制可以防止数据垄断,每个人拥有自己的数据,可以参与交易。
去中心化的信任机制保障了数据的安全,前面我们已经讲过了。
智能可编程货币带来的数据协作新的激励机制,加上前面所讲的密码学算法是一对绝配。
最后,简单总结一下区块链和密码学算法未来的发展趋势。
现在有越来越多大学的密码学家开始加入到区块链的创业团队当中,我已经碰到过好几个斯坦福、MIT、马里兰大学和伯克利大学的密码学家,大家纷纷加入到了区块链行业,投身到数据的隐私保护和数据的协同计算。
通过这些密码学家我们了解到,密码学界研究方向正在发生巨大的转变,2019 年的美国密码学年会和欧洲密码学年会目前为止接到的论文和议题有一半是安全多方计算 MPC。数据隐私保护成为了最热门、最重要的话题,我所发起的 PlatON 区块链项目就是致力于用密码学算法加上区块链技术解决数据安全多方计算的问题。我们已经在工程上实现了两方安全计算,三方的安全计算也将很快在 2019 年实现,之后安全多方计算就不远了。
区块链加上密码学算法将会给 AI 带来一片新的天地,满足 AI 对数据的需求,数据隐私会得到保护,数据资产会得到确权,数据共享会得到激励,数据计算会得以开放,数据治理会得以有序。
可以期待三到五年之后,一个去中心化的分布式 AI 平台会出现,不再需要依靠中心化的机构,也不再需要中心化机构的数据。一个科学家可以在这样的平台上面发布自己的需求征集数据所有者,征集算法所有者,征集算力所有者,完成自己的一项科学研究。
作者:肖风 | 来源:链闻
微信掃描關注公眾號,及時掌握新動向
2.本文版權歸屬原作所有,僅代表作者本人觀點,不代表比特範的觀點或立場
2.本文版權歸屬原作所有,僅代表作者本人觀點,不代表比特範的觀點或立場