AI研习丨低资源东盟语种的预训练语言模型研究

来源:世展网 分类:AI人工智能行业资讯 2024-02-21 17:11 阅读:*****
分享:

2025年深圳高交会人工智能与大数据展CHTF

2025-11-14-11-16

距离121

收录于话题

#AI研习

文/ 蒋盛益,林楠铠,王连喜

摘 要

预训练技术在英语和汉语等通用语言上取得了巨大成功,但由于语料缺乏,使低资源语言的预训练技术在实际使用中受到了一定的限制。本文针对东盟国家语言的预训练模型现状进行梳理和归纳,从单语言预训练模型到多语言预训练模型两个角度,阐述和分析低资源东盟语种预训练技术研究中的发展历程、模型特点和使用条件,同时对预训练技术在低资源语种上的进一步应用进行了展望。

关键词

预训练模型;低资源语言;文本处理

随着“一带一路”倡议的提出与推进,中国与东盟国家的合作日益密切,面向东盟的语言信息处理具有重要的价值和意义。东盟国家使用的日常交流语言除了英语和汉语外,还包括马来西亚语、印度尼西亚语、泰语、菲律宾语、老挝语、缅甸语、柬埔寨语和越南语8种低资源的官方语言。在这样一个具有语言多样性和差异性的国家联盟中,多语言特性增加了信息交流和文化传播的难度,急需一些新技术实现多语言或跨语言之间的信息交换、映射与共享。作为一项新兴技术,预训练语言模型不仅在各类自然语言处理任务中表现优异,同时在多语言和跨语言任务上也取得了较好性能。预训练技术就是在大规模无监督语料上进行预训练,再利用特定任务的小数据进行微调。尽管预训练技术在英语和汉语等通用语言上取得了巨大成功,但由于低资源语言的语料缺乏,从而使得其预训练技术在实际使用中受到了限制。虽然已有国内外学者开展了面向东盟8个语种的预训练模型研究,但目前仍存在很大探索空间。在面向资源较为丰富语种的跨语种、多语种研究中,其相关成果证明了预训练模型具有广阔应用前景,因此全面、深度分析面向东盟语种预训练语言模型构建的现状和问题具有重要研究价值和意义。本文将从面向低资源东盟语言的单语言预训练模型、多语言预训练模型的研究现状,以及研究展望三个方面展开梳理和思考。

1  面向低资源东盟语言的单语预训练模型

与通用语种一样,面向低资源东盟语言的单语预训练模型主要有BERT(Bidirectional Encoder Representations for Transformers)、RoBERTa(Robustly Optimized BERT Approach)、ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)等。BERT旨在通过双向联合上下文进行表示建模,即从未标记的文本中学习深度双向文本表示。它由多个Transformer的编码端(Encoder)组成。

如图1所示,BERT的预训练阶段由掩码语言建模(Masked Language Model,MLM)和下一句预测(Next Sentence Prediction,NSP) 两个无监督任务组成,MLM是指从输入序列中屏蔽一些词,然后通过上下文预测被屏蔽的词;NSP旨在增强句对之间的关系,它的目标是预测句子对是否连续。BERT模型可以针对各种下游任务进行微调,例如文本分类、命名实体识别和自动问答任务等。

图 1 BERT 模型

作为BERT的变体,RoBERTa旨在充分利用BERT 架构和训练方法。与BERT相比,RoBERTa有三个改进。①更多的训练数据。RoBERTa利用更多的未标记数据对模型进行预训练,以在下游任务中获得更稳健的性能。②去除NSP任务。Liu等验证了NSP任务的无效性并移除了该任务。③动态词掩码。RoBERTa使用动态词掩码来优化MLM任务,而不是采用BERT模型提出的静态词掩码,可以让预训练模型的参数得到更充分的优化,从而模型可以更好地捕获序列特征。

图2展示了ELECTRA模型。与BERT相比,ELECTRA的创新点如下:①提出了替换标记检测任务,该任务预测输入样本中的每个标记是否被生成器样本替换;②该模型联合训练一个小型生成器和一个判别器,以减轻判别器的训练难度;③为了有效地学习上下文信息,ELECTRA使用权重共享的方式将生成器的embedding信息共享给判别器。

图 2 ELECTRA 模型

针对低资源东盟语种,现有的工作分类汇总如表 1 所示,主要分为原始模型构建、基于语料规模扩充的模型构建、针对领域特殊性的模型构建、针对语言特殊性的模型构建,以及共享其他语言信息的模型构建五类。

(1)原始模型构建

作为预训练语言资源最丰富的东盟语种,马来语已经有了几十个不同类型的预训练模型,涵盖BERT、XLNet、AlBERT、T5、GPT2等,这些模型均由 Malay Huggingface1构建,然而他们并没有公开各模型的训练细节与性能评测。而与马来语同源的印尼语,尽管有近2亿的使用人口,并且是世界上第十大使用语言,其预训练语言模型的关注度反而不高,与其使用地位显然不相称。由于缺乏带注释的数据集、语言资源的稀疏性和资源标准化,以前关于印尼语的工作受到了阻碍。Koto等发布了IndoBERT2,一种面向印度尼西亚语预训练语言模型,并构建了IndoLEM印尼评估语料库,对该预训练模型进行基准测试。IndoBERT与原始的BERT模型结构一样,Koto等用大小为31923的印尼语WordPiece词汇训练IndoBERT,其训练语料超过 2.2亿个token,其来源主要有:①印度尼西亚语维基百科;②来自Kompas、Tempo和Liputan6的新闻文本;③印度尼西亚网络语料库。Cruz和Cheng使用WikiTextTL-39数据集预训练了一个菲律宾语BERT模型4;此外,他们还通过模型蒸馏构建了一个较小版本的预训练模型DistilBERT模型。Cruz等使用WikiTextTL-39数据集训练了四个不同版本的ELECTRA模型。

(2)基于语料规模扩充的模型构建

在印尼语预训练模型方面,Wilie构建了一个更大的印尼语语料库Indo4B5,该语料库共包含250万个句子、4亿个token,用于训练信息量更丰富的印尼语BERT-BASE模型和BERT-LARGE模型,模型的参数设置与原始的BERT模型一样,词汇表中共有30522个token。而对于菲律宾语预训练模型,Jiang等采用更大的语料库(Oscar语料库、维基百科语料库和新闻语料库)与更大的词表(52000个token)训练了三个预训练模型6,分别是BERT、ELECTRA和RoBERTa。在预训练阶段,除了现有的开源语料库之外,他们还构建了一个大规模的新闻文本语料库用于预训练。结果显示,预训练语料更充足的模型性能更优异。

(3)针对领域特殊性的模型构建

在印尼语上,Koto 等提出了IndoBERTweet7,这是面向印尼语 Twitter文本的第一个大规模预训练模型。该模型在IndoBERT的基础上,扩展附加领域特定词汇的词表进一步训练,同时关注词汇不匹配下的高效模型适应问题,并对新词初始化BERT嵌入层的不同方法进行基准测试,结果发现,使用平均BERT子词embedding进行初始化的方法可以使预训练速度快5倍。

(4)针对语言特殊性的模型构建

由于泰语、老挝语、缅甸语、柬埔寨语不像英语采用空格作为词与词之间的分隔符,因此在预处理时需要对输入的数据进行特殊处理ThAIKeras8以泰语维基百科作为预训练语料,与原始的BERT切割方式wordpiece不同,他们采用 sentencepiece作为文本的切割方式,训练了泰语BERT模型,其中 sentencepiece模型采用BPEmb训练好的切分模型。Lin等和Jiang等为老挝语、缅甸语提供了第一个基于Transformer的预训练语言模型,共包括 BERT-Small、BERT-Base、ELECTRA-Small 和ELECTRA-Base四个版本。在文本切割上,他们与ThAIKeras一样采用sentencepiece 作为切分模型。柬埔寨语与老挝语、缅甸语、泰语相似,然而由于人们在编辑时习惯性加上空格使文本更加清晰,柬埔寨文本中存在大量空格去划分词语,因此与泰语、老挝语、缅甸语的预训练模型构建不同,Jiang等在构建柬埔寨语的预训练模型时,没有采用sentencepiece模型,而采用与原始 BERT一样的wordpiece算法。此外,他们尝试了分词与不分词两种策略,结果显示,即使存在分词算法的鲁棒性影响,先对文本进行分词的操作能提高预训练模型效果。

(5)共享其他语言信息的模型构建

Nguyen等训练了一个越南语RoBERTa模型所采用的数据来自网络媒体的新闻文本与维基百科语料库共50G;同时,还利用了引入了其他语言——英语的文本一起训练,从而使模型共享有其他语言信息,进而解决在越南语文本中存在英文单词的现象,使模型可以解决英语和越南语的语码混用现象。

2  面向低资源东盟语言的多语预训练模型

面向多语言的预训练语言模型是处理多语言、跨语言任务的重要基石,同时也是处理低资源语言的重要基础。现有的多语言模型有MultilingualBert(mBERT)、Language-Agnostic Sentence Representations(LASER)、Language-agnostic

BERT Sentence Embedding(LaBSE)、Cross lingual Language Model(XLM)等,处理的语种完全覆盖东盟国家所使用的语种模型仍是少数(如表 2 所示)。

谷歌提出了多语言BERT模型,多语言BERT以与单语BERT相同的方式进行预训练,但它不是仅在英语单语数据上进行训练,而是在104种语言的维基百科语料上训练,并使用基于WordPiece切分模型的119547个多语言共享 token。该多语言BERT模型覆盖了东盟8个语种中的马来语、印尼语、泰语、菲律宾语、缅甸语和越南语,由于老挝语和柬埔寨语的资源与使用人数少,因此没有在多语言BERT模型的训练语言中。

多语言BERT存在的主要缺点是在文本蕴含任务中,当前提和假设使用不同语言时,多语言BERT性能急剧下降。一种可能解释为BERT的学习方式是通过将前提中的单词或短语,与假设中的单词或短语进行匹配作出文本蕴含决策。LASER模型对此进行改进,它支持文本推理任务中不同语言的前提和假设的任意组合;LASER对所有输入语言使用一个共享编码器,并使用一个共享解码器来生成输出语言,模型输出的向量表示将任何语言的句子映射到高维空间中的一个点,目标是任何语言的相同语句都将出现在同一个邻域中。这种表示可以被视为语义向量空间中的通用语言,该空间中的距离与句子的语义接近度非常相关。

XLM 采用两种学习跨语言语言模型的方法,一种是无监督学习,只依赖于单语言数据;另一种是监督学习,在平行语料数据上利用一个新的跨语言语言模型目标函数。所有语种共用一个字典,该字典是通过Byte Pair Encoding(BPE)构建,共享的内容包括相同的字母、符号token(如数字符号)、专有名词。这种共享字典能够显著地提升不同语种在嵌入空间的对齐效果。XLM不仅保留了BERT模型的MLM,还采用因果语言建模 (Causal Language Modeling,CLM),在给定前序词语的情况下预测下一个词的概率,同时提出了翻译语言建模(Translation Language Modeling,TLM)将并行的翻译句子拼接起来,在源句子和目标句子中都随机掩码掉部分token,从而引导模型将两种语言的表征进行对齐。

在多语言预训练模型中,尽管在进行MLM和TLM时学习到的内部模型表示形式对下游任务进行微调很有帮助,但它们不能直接产生句子嵌入,而这对于翻译任务至关重要。谷歌提出了LaBSE的多语言BERT嵌入模型,该模型使用MLM和TLM在170亿个单语句子和60亿个双语句子对上进行了训练。此外,LaBSE还在翻译排名任务(Translation Ranking Task,TRT)上进行微调。TRT使用带有共享变压器的双编码器体系结构进行训练,通过给定源语言中的句子,让模型进行排序,从而对目标语言中的句子的正确翻译进行排名,使多语模型在多项并行文本检索任务表现出最先进性能。

3  结束语

目前,针对东盟8个官方语种的单语言预训练模型结构仍较为基础,未充分利用东盟语种的特性进行改进与优化。而多语种预训练语言模型中,采用的低资源语料较少,在低资源语种上的表现效果较差,如Jiang等在菲律宾语任务上证明了构建的单语言模型性能比XLM更优异,而 Lin 等则验证了 XLM 模型在老挝语上表现效果不佳。面向东盟语种的预训练语言模型,未来的主要研究方向有:①针对东盟语言的单语预训练模型,融合相关的语言知识与语种特性,使预训练模型更适用于低资源语言模型;②针对东盟语言的多语预训练模型,利用 8 个语种的语料资源训练面向东盟语种的多语言预训练模型;③针对东盟语言的多语预训练模型,融合各个语言的语法特性,使东盟语种之间的信息可以相互利用;④针对东盟语言的多语预训练模型,探究其在语码混用场景下的语言理解性能;⑤探究相同语系语言、不同语系语言的多语模型在性能上的差异。目前面向低资源东盟语种的预训练语言模型的研究工作还处于起步阶段,未来还有很大的研究和发展空间。现有的研究主要集中在单语预训练模型上,尚没有很好地利用东盟语种之间的关联。因此,后续如何构建面向东盟语种的预训练语言模型是一项值得深入研究的任务。

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第3期

多语种智能信息处理专题

阅读原文

会务组联系方式  

展会咨询13248139830

相关AI人工智能行业展会

2026年深圳国际元宇宙及电竞娱乐展MES

2026-03-01~03-03 距离228
76281展会热度 评论(0)

2025年上海世界人工智能大会WAIC

2025-07-26~07-29 距离10
217933展会热度 评论(0)

2025年郑州世界数字产业博览会WDIE

2025-03-21~03-23 展会结束
58966展会热度 评论(0)

2025年北京全球数字经济大会Global Digital Economy Conference

2025-07-01~07-01 展会结束
59187展会热度 评论(0)

2024年苏州人工智能展AIExpo

2024-12-10~12-11 展会结束
81610展会热度 评论(0)

2025年深圳高交会人工智能与大数据展CHTF

2025-11-14~11-16 距离121
52301展会热度 评论(0)

2025年中国国际供应链促进博览会-北京链博会CISCE

2025-07-16~07-20 进行中
172990展会热度 评论(0)

2025年第6届深圳国际人工智能展GAIE

2025-05-22~05-24 展会结束
84830展会热度 评论(0)
X
客服
电话
13924230066

服务热线

扫一扫

世展网公众号

微信小程序

销售客服

门票客服

TOP
X