开源知识运动圆桌论坛：知识图谱应用的未来展望

胡安科技阅读 1460 2021-1-21 17:58

1月10日，由EpiK铭识协议主办的“2021开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。

除了主题演讲活动外，上海立信会计金融学院国际经贸学院常任教师，科研能力养成社群联合创始人庄育婷、Center for Safe AGI 创始人、University AI 创始人兼首席科学家朱小虎、Center for Safe AGI 创始人、University AI 创始人兼首席科学家刘吉、EpiK 铭识协议中国区负责人姚翔四位嘉宾分别进行了以《开源知识与数据展望》为议题的圆桌对话。详情如下：

主持人：进入圆桌讨论环节，我们邀请了四位嘉宾围绕开源知识与数据展望为我们进行分享。首先上海立信会计金融学院国际经贸学院常任教师、科研能力养成社群联合合伙人庄育婷老师。

庄育婷：刚才各位老师讲到关于语义标注，语义标注在商学院的质性研究当中有一个专有的名词叫做编码，我们也遇到很多编码的问题，在探索枯燥的编码活动如何用一个碎片化的方式来完成。

我在博士论文当中主要是做方法论创新，称之为忠诚理论，忠诚理论其实范围可以非常广的。从一个宏伟理论、宏大理论到一个社会现象中间其实都可以叫做忠诚理论，当时我就做了一个球形的模型，这对做知识图谱的人来说可能不陌生，这其实就是一个3D知识网络模型，那时候我做了一些猜想。

如果人类的知识在一个大网里，那社会的现实如何用球形来体现，X轴、Y轴跟Z轴就是时间、地点跟人的维度，然后沿着这几个维度的变化，可以从不同的立体切面上看到不同的学科在不同的切面上做一些活动，一直到后面做到社会网络的时候，我提出了一个模型叫做社会理论的四维模型，点、线、面、体这个也是知识图谱种非常熟悉的图谱，然后把这个忠诚理论做了四层的切割。我个人非常地希望真正可以看到人类知识有一天能够完成共享以及免费，这个知识图谱本身它是具有一定系统性的事情。

我们科研能力养成社群在去年发动了一个项目叫做新冠肺炎公益项目。这个项目当中我们也在探索如何把跟新冠相关的这些领域的研究，用知识图谱的方式来表达出来。后来我们是做了一个探索，因为其实我们不是做情报学的，我们一般来讲不会对文献进行系统的计量分析或者系统分析，比如说聚类分析。

当时很多都是文献材料，我们就做了四个方向的探索，一个是在线学习，一个是企业的停摆与激活，一个是社会关键前提，还有一个是开源数据的再挖掘。开源数据的再挖掘这个项目跟OpenKG他们做的新冠肺炎的项目会有一些重叠，只不过从人文社科角度去探索时并没有更多科技的手段，只能借助碎片化的软件还有人手的编码方式去实现它。

在我们可以看到我们这样做一个网络，里面我们的标注跟语义标注形式很像，我们13个成员收据了16个数据库，撰写大概四五万条的期刊文章，然后形成的几个网络分析。首先做了一个VOSviewer，是专门做期刊文章的一些聚类分析，我们从这个聚类当中再提取它的聚类要素。提取完聚类要素又做了Tableau分析。最后我们形成了类似知识图谱，但是这个叫做复杂网络系统，我们当时出了几个版本，是中文、英文、中对英、英对中四个这样子点像知识百科的互动可视复杂系统，类似知识图谱。

我们正在做的还有一个舆论动态与极化的知识图谱。语义标注有很强的学科性。比如说做舆论动态与极化，社会极化现象其实是需要一些社会学背景的知识，小组成员中有专门是做心理学的，所以他们能够对社会的这种现象在抽象的层面上去体验它，以至于能够形成一些关键概念。概念提取可能不像实体识别那么地直接，实体识别可能更多的是应用日常知识，可是概念提取需要用到更多的专业能力。

后来我们又做了应该是第三个公益项目就是“我的家乡美”。我们在12月份做了一个质性研究论坛，主题是中华脸谱计划，我们邀请了像王昊奋老师、王会珍老师参与到我们的项目当中，这个项目其实也是比较大，它也是会产生很多的数据。我们希望“我的家乡美”项目能够涉及到学术科研、图书出版、纪录片、互动百科、知识图谱、短视频、乡村文创、乡村振兴等方面。我觉得未来能有更多的成果是知识图谱、互动百科、学术科研，可能是目前我们能够比较好做出有效贡献的领域，因此，接下来我们在2021年会针对中华脸谱计划提出一些更细致的布局。

我们希望打造的是一个共益的中台，我们的目标是希望从公益到共益，让所有的人在贡献力量的同时，也能有所收获。在这个平台中，所有人都存在于一个平衡的、对等的关系中，因此，我们也提倡超越波特的“共享价值”，就是所有人在这一个项目当中受益。我觉得这个理念跟Epik平台的理念其实是蛮吻合的，所以也期待之后能够跟EpiK一起做一些事情，我非常欣赏你们用50年来做一件事情的态度，希望至少我们的项目能够继续50—100年不停地去为人类的进步贡献星星之火。

主持人：谢谢庄老师。我们接下来介绍一下其他的圆桌嘉宾，进入到嘉宾的提问和介绍环节。第二位演讲嘉宾是Center for safe AGI创始人、University AI创始人兼首席科学家朱小虎老师。还有面壁者数据创始人、基础数据人才培养产学院负责人、编写教材《数据标注使用教程》的刘吉老师。还有我们第四位嘉宾EpiK铭识协议的中国区负责人姚翔老师。

我们接下来会向四位圆桌嘉宾提一个共同的问题，按顺序回答，回答过程中可以介绍一下项目经历。我们先有请朱小虎老师回答一下“为什么会选择知识数据来进行发展和研究？”

朱小虎：大家好，我是朱小虎。今天我简单介绍一下主要研究的领域或目标——人工智能时代人跟机器的价值对齐这个核心问题。在近几年的学习研究中大家发现算法有的时候会出现一些不曾预想的行为，这个其实是大家很关心的这种所谓AI的安全性的问题。

这里面核心的其实就是让Alignment的行为跟人类的行为保持一致，这也是一种元安全的思想，就是我们从原理上去保证这个方法本身的合理性和功能性。之后我们是联合一些国际科学家去创立了Center for safe AGI。所以会以这个主题为核心去推动人工智能的发展。

这里面涉及到为什么跟知识图谱有关？在这个过程中我们发现很多的领域或者一些问题还有一些方法本身散落在各个领域之中，有不同的这种术语或者是它的思维方式以及文化习惯等等。其实在考虑比如说用知识图谱来作为一个基础去把整个散落在各处的这种理念和技术、术语等等汇集起来，以这个为基础去推动所谓的安全的通用人工智能的研究。我们之前也尝试过以个人的知识图谱为基础，去构建整个复杂的这种知识图谱的网络，通过这样的一种架构去研究或者是做应用去帮助更多人学习和研究人工智能。这个是我们会有一些其他合作，比如说法律、人才教育以及企业内部的这种探索。

主持人：谢谢朱小虎老师。接下来第三位有请圆桌嘉宾刘吉老师。

刘吉：我这边探讨了一下标注行业3.0升级建设的思路，同时也交流一下我们在这方面的设想，主要交流的点是基于泛标注的AI基础设施建设及个人数据资产化的设想。

基本上是从三个方面去介绍一下，这三个方面是连续的，第一方面是现阶段的场景化标注，其实是一种人工智能商业化的妥协，这是我们的一个看法。第二方面是泛标注AI基础设施的建设。第三部分是基于泛标注的个人数据资产化设想。

当先我们平台现在基本是做了大概60类以上的数据标注。比如图片标注，大家比较熟悉的应用在自动驾驶车道线标注以及分割，包括现在更高级一点的版本是点云标注、3D融合等等；比如人体姿态识别，应用在比如新零售、安全、工厂都可以。比如文本标注，和之前王会珍老师讲到的其实有点类似，这也是我们通常的任务，其实是基于医疗领域的标注；比如意图识别，这个是应用到美团或者大众点评等等这些上面去购买东西时的标注。比如语音标注，语音标注有很多包括语音转写、情感标注；还有医疗标注，医疗标注现在普遍的有DR标注、CT标注还有肾小球标注还有PCT病理的一些标注。以上这是我们现在标注行业可以看到比较普遍的标注，也是我们之前做过的内容。

现在目前场景化标注的这些方式基本上就分三种，一个是企业自营，另外还有标注平台以及线下的一些标注的团队。但是遇到了一些问题，比如自营的标注成本可能比较高，但是标注平台运营方式需要突破等等。

2020年比较突出的问题，就是它存量市场增加不多，大部分其实是由算法研发公司发布的需求。但是在2020年好多场景研发的算法研发公司进入到了一个产品推广阶段，而且有一部分AI算法的研究进入到了一个解决长尾问题的阶段，所以说这个增量其实还是相对比较少的。

增量市场其实还遇到了一个问题，就是我们现在AI基础设施不是很完善，所以传统的公司在对AI需求的挖掘释放上其实还没有得到很好的一个挖掘和释放。

基于以上的特点我们在考虑一个问题，就是泛标注基于AI基础设施的建设。这部分有三点，第一点是首先我们定义一下泛标注，就是人们在生活生产过程当中产生并被记录下的一次有结果的行为都可以被称为一次有效标注，这也决定了标注的价值。

不管是数据统计还是感知智能，其实都是基于数据来驱动的。我们现在可能是要做数据统计加知识推理实现认知智能，这涉及到很多知识图谱的建设。但是知识图谱是一个很复杂的工程，不是说一个场景化就能解决所有问题。

因此，在最开始认为其实场景化标注它仅仅是一种妥协，就是人工智能对现有需求解决方式的一种妥协。所以说还是需要有一个类似于知识图谱的构建这样一个庞大的工程性的建设。

所以说我们在构想的是一种基于泛标注的处理方式，利用人基本的决策能力构建一套可以快速简洁、可敏捷协作、系统化、可持续、可拓展的AI数据管道系统，这个其实是我们认为相对比较重要的，这也是我们在标注3.0阶段要重点去做的事情。

其实在这个过程当中我们考虑到了一个问题，不管是标注也好还是用各种方式来做都涉及到一个数据智能化的问题，数据智能化其实在目前的推广上或者是交易上遇到了很多问题，包括数据确权，在数据确权、数据价值上都没有得到很好的应用。但其实数据经济发展的核心是靠可控的数据规则，而使用规则的核心其实就是数据确权。从我们的角度来考虑其实数据的核心生产者是个人，所以我们也在基于个人来做数据资产化的设想。

基于泛标注的AI数据管道其实很重要，因为它是一种基础设施，相当于我们生产数据和应用场景之间的一个机器，但是基于数据资产化的数据价值和数据服务体系的协同建立才是推动数据流产生核心价值的核心推动力。

其实从这个角度来看它可以从两方面去设想，第一方面其实就是数据的服务价值，就是我们刚才各位嘉宾老师提到的数据服务、数据标注产生了一个服务价值，但不拥有其数据信息权。第二方面就是个人的数据价值体系，个人拥有其信息的所属权，可以作为信息的一个处理者，这就是我们之前所面对的两个问题。

人工智能的好多场景是来源于真实生产生活，其实这个信息源的确立还是没有在目前阶段得到一个很明确的确定，这也涉及到了服务和数据价值本身这两个维度的问题。

基于这以上的问题，我们进行了一个设想，为什么说从个人去做起？第一部分，其实个人是一个信息主体，所以我们也设想了一下个人信息可自主进行泛标注数据化。然后是第二部分是个人信息数据化的一个虚拟化处理。第三部分个人信息数据化后要进行资产化评估，并可自主参与到整个数据流通。

简单举个例子相当于我们去买了房子或者买了车，但是我们没有把信息公开，但是后面很快地就会有相应的装修的或者是卖保险的人去给你打电话，在这个过程当中其实你的信息被交易了并且产生了价值，但是这个价值却和我们个人没有关系。但是这个就存在的一个信息权的问题，那我们为什么不自己去把这个信息权或者是信息价值做到一个最大化。

所以接下来第四部分其实对于个人信息的绝对隐私可以称为是一个伪命题，就像我刚才举的那个例子，虽然我们没有参与其中也没有得到最大化的利益，但是我们的信息是被泄露的，那么其实我们要对这个信息有一个自主权的过程，可以利用资本化反推个人信息保护。

我们认为可能数据经济可以作为一个普惠经济的话，可以从个人信息数据资产化做一个开端。其实我们认为这就像刚才的一位嘉宾说的，它是一个很长的过程，可以用50年来做，我们同样的这部分事情可能也需要很长时间体系的建立。

主持人：我们接下来请第四位嘉宾也是EpiK铭识协议中国区负责人姚翔老师，有请姚翔老师回答一下“为什么会选择知识图谱的赛道来发展？”

姚翔：主要是因为非常看好知识数据赛道。当前AI马上进入到一个下半场，在上半场AI的角逐过程中大家往往都是建立模型，但是模型产出的结果很多时候是不可解释的。

在下半场的时候我们会越来越要求这个人工智能它产出的结果是可以解释的，为什么说知识一定要开源？因为数据的解释其实在很多程度最后都要归因到知识图谱。但是现在这些知识图谱往往都是不开源的，比如说每个大公司自己会有自己的知识图谱，他们可能对这两天很热议的特朗普的这个话题就会有不同的见解，机器可能也会不同的判断，这里就会有一些数据篡改的隐患。

我们通过这点就可以预见到随着行业和时间的发展，一定会出现一个分布式去中心化的知识图谱，是大家共建共享一起来维护的一个知识图谱，然后来为上层的AI来赋能和提供数据，这也是未来的一个趋势。EpiK看到了这个趋势，而且团队的背景主要是人工智能和区块链，因此选择做基于区块链的可信的分布式数据共享平台，从而来实现知识的共建共享。

另外我简单提一下，我看到群里刚刚有人在问说开放式协作如何保证知识的质量？这也是很多人会疑惑的一个问题。

正如前面王昊奋老师和王会珍老师提到的那个工作流程，在EpiK里面虽然是开放式协作，但是过程中也会有标注员、验收者和验证者这些角色，比如说验收员可能就是领域专家，领域专家要对自己产生的上链的数据来负责。标注员和验证者就是赏金猎人，他可以帮领域专家做很多事，类似于领域专家驻守的一个角色。

这三方的付出和收益在区块链上是明确的，同时也通过区块链这个系统来直接发放。EpiK这个产品很重要的一个目标就是它要不断地优化这个开放式协作下的工作效率，从而来确保这个知识质量。

主持人：我们接下来再向所有的嘉宾老师提最后一个问题，这个问题是请老师再介绍一下目前这个行业还有发展机会、需要什么样的背景？

庄育婷：我觉得现在介入到自然语言处理、知识图谱或者人工智能的专家学者当中，人文社科的学者其实介入的并不是太多，主要是以语言学家或者比较研究微观的人、个体经验的各种专家在介入。

如果我们要真正地去解开这个黑匣子，它不只是需要这些语言学的专家，也需要更多其他学科专家的共同努力。因为人类的知识是相当复杂的，交互也非常地多。而且其实越讲到群体效应的时候，我们越讲到的是一个诠释的视角，也就是说知识并不是只有一种诠释的方式，它从不同个体的角度，从不同群体的角度其实我们的行为发生很大的变化，比如今天王昊奋老师讲到计算机的本体论，本体论在质性研究当中它的定义也不一样。

如果我们要真的认真去面对这个黑匣子，达到认真智能的其实光靠语义标注是不够的，需要有很多的元素，只不过语义标注现在看起来更容易标准化、规模化。但是如果我们真的能够进入到真正的智能社会、知识智能的话，其实这条路还很远，它还需要我们慢慢去解构很多知识内在的一些基因跟密码，这个需要所有人一起努力。

朱小虎：我很认同庄老师的观点，我们需要有更多元的这种认知或者是一些背景的参与者来完善整个开放的这种知识图谱，以支撑我们未来社会对于人工智能技术或者更多高科技技术的需求。我的观点是在很多的领域中其实有很多的机会能够去把知识图谱用在它相应的这种行业里面或者是一些问题的解决中，也能够去形成更好的这种协作，因为知识图谱本身它是一个基础，能够帮助新来者和已经在这个行业里面很长时间的人去快速地增长自己的认知，并且能形成协作。

对于知识图谱的发展我倾向于也是有更多的这种经验和结构就是不同背景的知识引入进来，使得这个系统更加开放、更具有活力，而不是说被某一种机制统治的这样整个技术氛围。

刘吉：我还是从基础设施建设的角度去交流一下，因为本身我认为知识图谱具有很多特性，还可以有很多的创新点。目前从我们标注行业来看，其实它在基础设施建设这个流程上还有很多要落地的一些问题，可能我们现在在这个规则上和流程上已经从理论上打通了，但是在从真正的基础设施角度来讲还没有和各个行业包括金融、价值体系有很深入的结合，其实从行业、从领域角度还有很多需要结合的一些点，还有很多非常多的机会。

姚翔：这个问题在我刚才讲EpiK的介绍项目里面大概有一个回答，因为EpiK其实是一个底层的数据平台，所以说它也为社会的各种角色在平台上做了一个定位，或者做了一个大体的框架，让不同身份的人都能参与到这个行业里面来。

首先，行业的资深从业者或者是掌握了某些核心技术的人，这些人可以称为领域专家，这类核心技术并不一定是非常高大上的，有量子计算机之类的那种感觉很多人难以理解的技术。也有电竞行业、二次元动漫等等都是可以的，像做饭、做菜这类只要你有一定的知识，也可以去梳理这方面的知识图谱，这些人都可以作为领域专家参与进来。

但是这些领域专家参与进来不是说没有任何限制的，一定要保障质量。他们需要被提名，任何人或者机构都可以申请成为这些领域专家。

EpiK首批会选取10位领域专家，这是第一批的，后续会逐渐把机制放开。争取这10位专家处于不同的行业，他们来共同收集和整理不同领域的公开数据，同时进行梳理和分析。领域专家的职责之一就是要确保数据的准确，同时也去把这个任务合理地拆分、下发到平台上，然后让其他人可以参与进来共同维护这些领域。

什么样的人可以参与来维护这些数据？EpiK引入了第二个角色—赏金猎人，我们可以把他暂时定义为是小镇青年。因为要求赏金猎人这批人足够有活力、足够有热情，他也希望能够为数据的提供和质量的保障做出一定的贡献，这些人类似于领域专家的助理，帮助领域专家完成特定领域的项目。EpiK赏金猎人任务相对来说比较简单，希望降低越来越多人的进入门槛。比如说他们可能需要完成一些简单的选择题回答Yes或者No就可以了，每个回答的背后都会意味着一条知识图谱的生成，完成任务之后他们也可以通过领域专家分配这些任务获得相应的奖励，比如说平台的积分。只要这个行业在发展或者我们走的方向是对的，整个平台的价值会逐渐地水涨船高。随着通证价值的不断提高，这些赏金猎人的收入也会变得越来越可观，也是属于接触到这个领域的一个比较重要的发展机会。

当然你可能会说OK，但我不想提供数据的产生这一环节的贡献，因为我可能觉得，第一，我没有那么多时间，第二，我没有那么大的专业性，那么还能不能参与到这个领域来？当然可以，比如你可以提供数据存储能力。比如前面有提到说你只要租一些服务器或者自己在家里只要有公共IP组建一些服务器就可以去为整个系统提供存储功能。因为区块链其实是有非常好的奖励机制和激励模型的，可以有一些奖励，通过获得新的区块开采的权力然后来获得一些通证的激励，这也是可以的。

除了数据的产生和存储之外，你可能觉得整个数据的体系是越来越完善的，价值也是越来越高的，那我能不能说把这些数据进行变现。当然我们也很欢迎，这里面会有另外两种角色或者另外两个机会。

一个是数据网关，可以通过为链上的数据做知识聚合，提供一些知识好用的访问服务，比如说像谷歌API一样的，然后Epik会给你开放接口，你只要对这些数据进行二次加工或者做火引就可以为某个领域的知识提供更好的服务，也是会有相应的补偿和收益。

除了这些之外最上层可能就是应用方了，比如刚刚提到的企查查、猿题库之类的，这些企业可以省去高昂的自己建数据库的成本，直接去获取链上好用的、已经整理好形式的这些知识图谱和知识库的数据，然后来做一些商业化应用，这也是在这个领域可以做的创业方向之一。

EpiK Protocol 铭识协议

EpiK Protocol 致力于去中心化的超大规模知识图谱构建，通过去中心化存储技术（IPFS）、去中心化自治组织（DAO）和通证经济模型（Token Economy），组织并激励全球社区成员将人类各领域知识梳理成知识图谱，共建共享并持续更新这一人类永恒知识库，从而将人工智能(AI)的视野拓展到更智能的未来。