人工智能研究人员致力于为非洲语言创建聊天机器人
本文简要:
·尽管面临训练数据有限的挑战,人工智能研究人员仍致力于开发可以用非洲语言进行交流的聊天机器人。
·多语言预训练语言模型(mPLM)可以通过解释相关语言的基本结构来帮助克服数据稀缺性。
·非洲语言聊天机器人的最新进展是SERENGETI模型,该模型涵盖517种非洲语言和语言变体。
自然语言处理(NLP)领域在英语和俄语等使用最广泛的语言中取得了最大的进步。但新兴的研究重点是使用非洲语言训练人工智能模型。
通过这些努力,非洲语言聊天机器人的梦想正在接近现实。
聊天机器人研究以英语为主
自然语言处理和为ChatGPT等聊天机器人提供支持的大型语言模型仍然是相对较新的技术。迄今为止,研究和开发主要集中在最常用的语言上。
例如,ChatGPT有英语、西班牙语、法语、德语、葡萄牙语、意大利语、荷兰语、俄语、阿拉伯语和中文版本。
人工智能研究中语言占据主导地位的趋势很大程度上是由数据可用性驱动的。
据估计,在线提供的所有书面内容中有一半以上是英文的。因此,在训练语言模型所需的数据集中,最大且最容易获得的数据集是英语,其次是其他最流行的语言。
非洲语言给人工智能研究人员带来挑战
目前,世界上最大的人工智能公司正在争夺为几种语言构建最先进的聊天机器人。但另一个研究领域正在寻求为不太流行的语言开发人工智能工具。
对于非洲语言来说,训练数据的有限性给人工智能开发人员带来了重大挑战。
许多非洲国家的语言多样性使事情变得更加复杂。例如,南非有11种官方语言,该国有35种本土语言。非洲大陆使用约2000种语言,建立与英语规模相当的庞大数字内容库几乎是不可能的。
非洲语言多样性的表现(来源:ACL Anthology)
此外,最近的一项研究发现,缺乏基本的数字语言工具是阻碍内容创作的一个因素。正如作者观察到的:
“由于缺乏词典、拼写检查器和键盘等基本工具,用非洲语言创建数字内容令人沮丧。”
尽管如此,我们仍在努力增加非洲语言数据的可用性,例如,通过数字化档案语言存储库并免费提供更多数据集。内容创作者、策展人和翻译者的工作也至关重要。
多语言模型可以使非洲语言聊天机器人成为现实
尽管缺乏训练数据肯定阻碍了非洲语言NLP研究,但多语言预训练语言模型(mPLM)可以帮助研究人员克服这一挑战。
预训练模型可以被视为高性能聊天机器人的构建块。然而,它们仍然需要针对特定任务进行微调才能提供对话输出。
通过在预训练期间获取可概括的语言信息,多语言模型能够解释相关语言的基本结构和轮廓,而无需通常需要的大量训练数据集。
毫不奇怪,最近的一项研究表明,语言相似性可以提高模型性能。就像相关语言的使用者通常可以互相理解一样,使用一种语言训练的模型也可以准确地解释相似的语言。
研究人员利用这种方法开发了一种名为SERENGETI的mPLM,涵盖517种非洲语言和语言变体。
这代表着重大的技术飞跃,以及对之前涵盖的31种非洲语言的显着改进。
Scan QR code with WeChat