肖风:分布式 AI 平台离不开区块链与隐私计算技术
非常高兴有机会参加世界人工智能大会的区块链论坛,这是一场跨界论坛。所以我今天的话题,也试图从「跨界」的角度来谈谈我个人的一些思考。
海量数据是所有人工智能算法高效运行的前提。中小企业、中小科研机构可能没有能力搜集到海量数据。前段时间国家提出要建立「数据要素市场」,我想,其本意就是希望能够通过建立数据要素市场,使数据流动起来,让中小企业能够拥有、交易符合需求的数据,从而使自己拥有人工智能的智能化能力。
这场世纪疫情突然把我们抛到了陌生的境地——一个数字化的世界里。突然所有东西一夜之间线上化了。如果没有线上化,你会感觉到非常不方便,甚至工作生活都无法正常进行。
基于我的个人观察,我总结出了「数字化迁徙」的三个步骤:线上化—数字化—智能化。
线上化就是用 ICT 技术把工业的研发、生产、销售、产品全流程及个人生活过程都搬到互联网上。完成线上化之后,我们才可能通过互联网、物联网低成本地收集到海量的数据,而这些数据是人工智能算法必要的生产要素。数字化即通过物联网、互联网收集、存储、分析数据。在足够数字化之后,我们才可能走向智能化,即有效运作人工智能算法。
完成这三个步骤之后,我们才能开始谈人工智能的应用。
我们都知道人工智能已经由高潮到低潮,起起落落三个来回了,为什么到今天才这么普及、这么深度地影响到所有人的生活、所有制造,甚至城市的治理?现在我们能够通过互联网和物联网,低成本地拥有海量的数据是非常重要的一个前提。
数据要素的特点
数据作为生产要素具有其自身的特点,这些特点与以往其他生产要素完全不同。我总结出了以下四个特点:
第一,数据确权。产权保护非常不容易,因为数据虚幻飘渺,有高度的可流动性。按下计算机上的发送按键,数据可能就发送出去了。另外,数据又非常容易被复制,不像用复印机复印书,一本书可能有两三百页,复印成本很高。而数据的复制是零成本的,这对数据作为生产要素是非常不利的。
第二,数据的所有权不可分离。举个例子,我的基因数据不可能因为被你买断了就不再属于我。由此可见,数据所有权和主体是无法分离的。不像股票,它所代表的所有权,从 A 转向 B 时是一种买断行为,即当买入者从卖出者手中购入股票时,就拥有了该公司的一部分权利,卖出者则丧失了这部分权利。
第三,数据越分享价值越大。一条数据如果只有一个人用,它的价值非常小;如果有一万个人用,才能真正发挥它的价值。所以数据具有很广泛的社会性,我们需要让它在更广阔的范围里得到分享。
第四,数据的使用边际成本为零。数据一旦产生之后,无论是一个人用、一万个人用还是一亿个人用,它的边际成本都是零。
数据要素市场的特点
正因为数据要素的以上特点,我们要建立的数据要素市场,和我们熟悉的股票市场、债券市场、土地市场又有很大的不同。
第一,数据要素市场交易的是数据的使用权,不是所有权。刚刚讲过数据所有权不能与主体分离,不能被买断。
第二,所有数据交易的需求,都是跟特定用途和场景有关系的。任何标准化的交易和购买数据都不会是为了升值,而是为了满足需求。
第三,数据交易是点对点的交易组织形式,有特定的交易对象。一方持有特定数据,另一方则有特定的需求,于是双方点对点地完成这一笔交易。实际操作中,很难用集中的大数据交易所方式来组织所有的数据交易。
第四,数据交易是需要经过多方许可、多次许可的。一个数据的使用权可以卖给一万个用户,一个科学家可能要向一万个人征集数据,才能具有某种统计学上的意义或者得出普遍适用的结论。所以数据交易是一个需要多方许可、多次许可的市场。
第五,数据要素市场是非标准化的,不能像股票、债券那样按照固定标准进行交易。
区块链对于数据要素市场的价值
我一直认为,大数据交易所这一组织形式并不适合数据要素市场,点对点的分散 OTC 市场(注:Over the Counter 场外交易市场)更合适数据要素的交易。要建立这样的数据要素市场,我个人认为离不开区块链和隐私计算等技术。
1、数据可信:作为点对点的数据要素市场,如何确保数据的可信度?这需要使用区块链分布式账本的特点,大家共同记账、不可删除、不可篡改,只有在区块链技术的加持之下,数据的可信度才能得到保证。
2、数据确权:如果数据产权得不到很好的确认,又如何能用于交易?区块链可以以很低的成本对数据进行确权,主要依靠区块链可存证、可追溯、可溯源、可审计等特点。这些分布式账本的标志性特点,可以很好地帮助我们进行数据确权。
3、数据保护:区块链用到的很多加密算法,比如哈希函数、非对称加密、零知识证明等密码学算法,给分散式数据要素市场提供了非常好的数据保护。如果数据不能得到保护,就一定会被盗用。
4、数据交换:数据得到保护之后还需要进行交换,如果不交换,就无法发挥出数据的价值。交换加密后的数据也需要用到很多密码学算法,如可验证计算、同态加密、安全多方计算等,这些密码学算法能够帮助数据在加密之后参与协同计算,从而得出我们需要的某些结论。
5、降本增效:数据交换过程中,点对点的分布式数据市场如何帮助大家低成本、方便、快捷地完成这场价值交换?区块链上的智能合约显然是最合适的方法、工具。
6、价值分配:我们试想一下,一个科学家向一万个数据拥有者征集到了足够多的样本数据,计算出来一个他所需要的目标函数。此时他需要向一万个陌生人支付数据的对价,最方便的方法就是使用可编程的数字货币,让大家都完全相信它一定会得到对价。这种清算结算方式同时也是最省钱、最高效的。
在这六个方面,区块链和隐私计算都可以非常好地适配点对点数据要素市场。
我们可以看到,区块链技术和隐私计算技术会给人工智能插上「飞翔的翅膀」,使得数据隐私得到保护、数据资产得到确权、数据共享得到激励、数据计算得以开放、数据治理得以有序进行。人工智能数据要素市场离不开区块链和隐私计算技术。
综上所述,鉴于数据的所有权非常分散,数据的使用权往往可以被多方多次地许可、交易,数据交易的市场是点对点的分布式市场。基于区块链和隐私计算技术基础建立分布式 AI 平台将大有可为。
分布式 AI 平台除了对应着前面所讨论到的数据要素市场特点之外,更重要的是能赋能中小企业。到目前为止,真正能将 AI 使用得非常好非常有效的是互联网巨头们。这是因为他们有很好的互联网平台可以搜集到海量的数据,同时他们也有很强大的财力利用数据优化人工智能算法。但是大量没有雄厚财力获取海量数据的中小企业也需要人工智能的赋能,因为个人和中小企业也掌握了很多数据。
我们一方面需要用分布式 AI 平台更好地搜集散落在市场和民间的数据,另一方面要赋能中小企业,让他们获得人工智能的加持。分布式 AI 平台是接下来人工智能界、区块链界应该共同严肃讨论的话题。
以上就是我今天的分享,谢谢大家!
问答环节
主持人 :现在区块链和 AI 这两个技术都处于相对初期的发展阶段,两个技术要相互结合在一起,在这个阶段是否有可能实现吗?还是要等两个技术都成熟以后才会有更好的互动?
肖风:第一,人工智能技术和区块链技术是不是处于发展初期,这点值得商榷。从上世纪 60 年代开始,人工智能已经经历过三波高低潮的交替,我认为它已经处于成熟期。
第二,我们必须在技术处于初期的时候加入到「战场」中。1999 年、2000 年的时候互联网也处于发展初期,因为 TCP/IP 模型在 90 年代中期(1993 年、1994 年)才初步定型。在今天看来,所有伟大的互联网公司几乎都诞生在那个时候,所以千万不能等。如果等到技术成熟了再入场,那么基本上就没戏了,这个市场不属于你。
第三,这两项技术都在逐渐发展成熟。人工智能技术和区块链技术的不断融合是它们走向成熟的必要条件。它们在融合当中会变得更加成熟。如果永远不融合,它们各自的发展成熟速度可能都会放慢,所以推动这两项技术的融合是当务之急。
Scan QR code with WeChat