小牛思拓董事长兼CEO王会珍:数据标注助力知识获取

胡安科技 view 43867 2021-1-18 17:53
share to
Scan QR code with WeChat

1 月 10 日,2021 开源知识运动线上研讨会成功举办。EpiK邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席、著名知识图谱专家王昊奋、著名数据及知识图谱公司创始人及项目负责人王会珍等重量级嘉宾参与,各位专家学者纷纷发表主题演讲,为开源知识运动做了不同角度的解读。

小牛思拓董事长兼CEO王会珍:数据标注助力知识获取

今天我们来分享东北大学计算机应用专业博士、小牛思拓(北京)科技有限公司,董事长兼 CEO 王会珍主题演讲《数据标注助力知识获取》,全文如下:

谢谢主持人的介绍,感谢Epik的邀请,很高兴参加今天的研讨会,今天我的演讲题目是数据标注助力知识获取,王昊奋老师提到了知识图谱的构建和审核,邢老师讲解了区块链的发展趋势,同时也提及了数据体系的构建融合,这种跨领域的数据的挖掘应用,包括知识体系的构建,实际上所有工作,我是认为都是离不开数据标注的。

小牛思拓已做了三年的数据标注服务了,今天跟大家分享这些年我们在数据标注方面的经验。

我是东北大学自然语言处理实验室的老师,实验室从80年开始做自然语言处理。我从硕士博士都是做ROP方向的,在做算法时,在研究方向上发现,基本上都是在少数例题做验证。但是2012年成立公司做产学研落地时,团队发现实际上小数据是很难进行落地的,比如说机器翻译。以小牛思拓的一个产品小牛翻译为例,当前可以支持304种语言的互译,而且翻译质量非常好,这得益于有中英两亿个聚对后台支撑,用深度学习的方法去训练机器翻译引擎。因此,在做算法或人工智能方法技术落地实践中,数据标注就显得更加重要。只有高质量的带标注的数据才能支撑算法学习。

什么是数据标注?

什么是数据标注?数据标注是小牛思拓的重要业务之一。公司一开始定位的是做文本的标注。在这个层面,其实大家对图像和声音的标注会更熟悉,比如人脸识别标注出来加在图片里;比如,在线会议可以直接同屏有字幕,这种可以由语音自动转换成文字的标注。

小牛思拓董事长兼CEO王会珍:数据标注助力知识获取

下面是文本标注的两个例子,其中一个是从一句话里面能标注出来实体,并要找到两个实体间的关系;另一个是智能语音对话形式很火,如发布一个问题,首先,我们要理解出来这个问题的意图是什么,这个问题还有很多种方法,不管是哪种方式去提问,我们都可以找到它对应的答案,所以这里面是我们一个问句复述的例子,给出一个问句,我们标注师要能够写出来十个句子,不同的说法,但是跟这个句子的问题都是一致的,这个是复述的例子。

接下来是从图像、声音、文字不同的处理对象,进行一些标注的样例,实际上最终的都是要有大量的人工去标注好的,或者是半人工标注好的带标数据来供机器训练和学习。

当前有几千家数据标注的公司比如京东百度等都有众包平台,通常都是群体智慧,包括区块链也是加入了很多的群体智慧。这就不得不提数据标注的重要角色—标注师,来了数据任务的时候,我们就需要给他进行任务分配,这是传统模式。

现在我们新的模式,在两方面进行处理,第一个,在任务层面,由于有ROP的技术,我们会做一些相似任务的训练分析,我们认为把相似的问题都给同样的一批人,会提高效率。另一方面,利用一些自动的技术,比如说我刚才提到的去做关系抽取,可以做出来一个关系抽取的模型,对数据进行预处理,然后我去用模型先预标注,预标注的结果再扔给标注师,他们在里面进行审核校正,就可以提高标注的效率。这个是我们从数据模型和人员方面进行的新模式尝试。

经过三年打磨,目前,我们团队已形成了完善的数据标注工作流程。当我们拿到任务需求时,我们需要与用户明确标注规范,去试标,用户认可标注的方案和报价,彼此达成一致则正式开始标注任务。

首先,我们会对标注师进行培训,因为每个数据标注任务都是不同的,都需要重新进行培训。

其次,培训合格后,开始实施任务。实施的过程中我们就会有各种的质量的监控,有去完善标注的规范,再培训。

再次,并非达成一致后就原封不动地按照客户给确认的规范执行,小牛团队与客户是强沟通关系,我们不断的从规范迭代更新,规范重新定义好以后,我们再培训,再质检,不合格的实时淘汰。

在标注的实施过程,我们有自己的标注工具,我们会有一些抽检和埋雷,及时的发现标注师哪块可能会存在质量的不合格风险。再后面还会有一些抽检,这是在标注过程中随时做得。在确认标注质量合格后会提交给客户,客户这边进行验收,最终结算,销毁数据。

当前也在考虑是否可通过采用区块链的技术保证数据的安全,我们现在的处理方式就是提交完客户以后,我们会把数据进行销毁,这个是现在整个的标注工作流程。

数据标注如何助力知识获取?

数据标注如何来助力知识获取呢?知识获取简单的说,就是我们要用机器获取知识,有广义的知识获取,如机器里通过不断的程序运行,不断的进行知识的积累,它能够自动的,像人有理解和举一反三的能力一样,不断的对这个知识进行扩充;同时也有狭义的是如我们一直在做得,包括我们知识图谱的人员也在做的一件事,通过程序和人机交互或者是很多的知识图谱的工具,通过专家或者是领域专家来去构建知识库的过程。

小牛思拓董事长兼CEO王会珍:数据标注助力知识获取

知识获取的本质就是从这种爆炸性的信息里,去甄别判断,来提取对我们有用的知识。数据标注就是知识获取的一个过程,举个例子,比如说你被蒙上眼睛,让你看到瓶里是空的还是盛满水,你会怎么做?一种方式是不用把面罩揭开,把手伸到桶里试一下,这个是一种尝试的方法,另外一种方式是我往里面扔一个东西,听听发出了什么样的声音,就能感觉到里面应该是有东西的,是一个推理的方式。还有一种,我也不用做什么,我就询问一下,向值得信任的人问:这个桶里是有水吗?对方告知有水,我相信他。

不同的知识的获取方法,实际上可以对应不同的标注类型。比如需要基于感知,把手伸进去判断是否有水,这是一个分类标注问题;基于推理的过程需要识别理解筛选归纳,可以对应到实体的标注;比如说我从一句话里面把人名地名结构名标注出来,这是实体的标注;在句子里看到内容进行推理判断,如这个到底是人名还是地名,这是阅读理解的标注;还有一个,信任,这个可以对应信息检索(有事问百度),我们养成了用搜索引擎的习惯,这个也是第三个标注的类别。

人们会问现在的技术这么发达了,当前的手段很先进,有爬虫和自动抽取自动分类,还需要标注吗?实际上我们可以靠爬虫对数据的来源关键词怎么得到的,爬取数据要怎么验证,刚才也提到了验证也有开源知识图谱审核的过程,怎么归类,怎么表示,还有自动抽取和分类之前的算法训练数据从哪来,这个是我们现在数据标注存在的非常重要的意义,能够去支撑前面的这些问题。

数据标注是构建知识库必须的手段,也是知识获取的一个基础和保证,我可以人工标注的结果做算法训练,通过人工标注进行知识的校验。

如何进行数据标注?

今天想给大家分享的是从另一个角度来给大家介绍,一个是什么样的标注服务是专业的。标注的速度快,标注的质量好,这个就是专业吗?实际上我们觉得不完全是。专业的标注服务是什么样的呢?

小牛思拓董事长兼CEO王会珍:数据标注助力知识获取

首先服务前建立合理的标注体系;不是用户提了一个需求以后,就完全按照客户的需求或者是客户给的标注说明,原封不动的做这个数据标注,我们会在看数据的过程中会跟客户商量,不断的完善标注体系。

之前,我们做过上百个项目,发现实际上在最早建立标注规范的时候,客户并没有审查数据,因此在真实的数据场景里,这个标注规范会有千奇百怪覆盖不到的,为此,我们会跟客户一同构建标注体系。

其次,标注的原始数据;有一些客户给我们提供的带标的数据,其实里面会有一些问题,比如说会有重复的,数据标注是按条计费的,这对客户来说是损失,包括里面相似的句子比较多,或者说句子里面覆盖的领域或者行业不太充分,这些我们都会给客户进行一些建议。

再次,标注服务建立完善的流程,这个流程也非常重要,是质量的一个保证。

最后,为客户提供强有力的保障;如客户需要两天就出标注的结果,从理解规范培训,前面的整个一大套的流程,就需要两天完成;当然客户有各种各样的需求,因此要给用户提供一个强有力的保障,我们达到这四点,才认为数据标注是一个专业的。

事实上,不仅仅是服从和服务的过程,我们的标注团队还希望和客户构建一个深度信任的合作伙伴的关系,来共同做好这件事情,使得标注出来的数据有价值。

在数据标注过程中有以下几个环节构成,每个环节都在扮演不同的角色,比如标注师、标注规范、标注系统等等。

有人会问,什么样的标注师是好的?标注师的学历分布,背景,这个虽然重要,但不是最重要的。公司里面有300多个比较稳定的兼职标注师。这是我们从两三千人里经过培训做任务筛选下来的。专业的标注师一定是热爱标注行业,同时充分理解用户需求。

标注流程,标注流程不是固定的,它会根据客户的或者我们的任务场景需求不断的去变化,如果比较繁杂的数据,我们可能会先给他一个聚类的环节,给他聚成堆,比如军事领域聚在一起,有一些标注人员比较擅长理解这个领域的这些数据,我们就给他分配这样的标注师。比如说项目进度比较紧张,像刚才那么一大堆的流程,可能至少有一周的时间,我们需要根据客户的需求来简化流程,保障进度。

除此之外,标注规范也是比较一个需要关注的节点。这是一个必须要经过反复验证的过程,之前客户给我们一个规范半页纸,在我们做完的时候标注规范已经写了三十多页了。因此标注规范是标注过程中不断去完善的。标注规范要保证它的全面,也要保证标注效果。

还有一个就是标注规范的呈现形式,客户给我们的往往都是实际上是技术人员写的,比如说算法工程师写的,如果让不懂算法的人去看的时候,就会非常的麻烦,所以我们在里面还会有一个过程,就是原始规范的改写,我们会把标注规范呈现的方式,让标注师更容易理解。因此,在整个标注服务过程中,我们专业的标注规范,要有明确的标注内容,标注时候的规律,基本的处理原则,还有一些注意事项,所以这些都要在规范里把它都表述的非常清楚,而且要用通俗易懂的语言来描述出来。

接着是标注系统,知识图谱构建的工具,我们这个标注系统实际上之前也开放过。标注系统可以完成各种标注任务的,当前标注系统支持图象的二倍拉框,语音转文字的标注,还有文本方面的标注,如实体的标注,关系标注,事件的标注,包括分类,类型的标注,问句的意图标注,包括对话的生成等等。

标注系统实际上是为了提高我们标注效率的,这个系统的构建实际上就是需要减少标注人员在系统外的操作,会根据任务在标注系统里嵌很多,比如嵌入搜索结果,从百度搜索还有各种搜索引擎的结果,帮助标注师去理解概念,提高标注的效率和一致性,这些都会在标注系统里进行考虑。

标注过程一定是不断的反馈更新培训和淘汰的过程,单纯的一次质检是保证不了质量的,所以在整个的标注服务过程中,构建了四重机制,比如说质量的把控,抽检,埋雷,多人标注,数据安全的机制,应急的预案,包括人员预留,突发事故的应急组等等,另外,我们还会有一些考虑,包括过程的控制,比如说规范的适用性,规范的确认改写,包括培训测试,包括状态项目进度的监控,包括反馈机制,包括实施过程等方面,总之,通过各种机制,我们来保证标注的质量。

btcfans公众号

Scan QR code with WeChat

Link
Disclaimer:

Previous: 【Deribit期权市场播报】0118:M Next: 为什么DeFi加资产代币化会把加密带到新的高度

Related