AI人工智能行业资讯更多

AI语言鸿沟再现!英文便宜15倍,中文竟不是最贵的?

来源:世展网 分类:AI人工智能行业资讯 2023-07-31 19:24 阅读:*****
分享:

2026年北京人工智能展-中国国际智能科技产业博览会世亚智博会

2026-06-08-06-10

距离294
行业新闻早知道,点赞关注不迷路!简中:我不高贵了!我们开发过大模型的都知道,现在流行的大模型都是基于Transformer架构来的。作为母语是英文的架构,以ChatGPT为代表的AI大模型,在英文理解能力方面,那绝对是数一数二的。但全世界又不全都是讲英文的,别的语种在ChatGPT身上就不灵了?其实在一开始,ChatGPT等大模型对非英语语言的支持不是非常到位,经常闹出理解错误、输出错误等笑话。在不断更新和扩充语料库后,大模型对世界大部分语种才有了比较好的理解能力,但是要做到最准确、最快速的输出,英文还是首选。这就形成了一种循环。英文的输出效果最后,英文的输入也就随之增多,进而带来的就是英文语料的不断积累,从而使得英文输出更加智能。这也就是为什么现在英文大模型的智能水平,要高于其他语种了。出现这一结果的原因,倒也不是语种排外,主要可能是基于成本的考虑。结合最近牛津大学的一项研究,根据OpenAI等公司所采用的服务器成本衡量和计费的方式,英语输入和输出的费用要比其他语言低得多得多。

英文最便宜,中文并非最贵?

现在盛行的大模型靠什么理解输入的文本内容,就是Token(标记)。Token 可以被理解为文本中的最小单位。在英文中,一个 token 可以是一个单词,也可以是一个标点符号。在中文中,通常以字或词作为 token。ChatGPT 将输入文本拆分成一个个 token,使模型能够对其进行处理和理解。对于语言大模型来说,token 是一种数字化的表示形式。每个 token 都与一个唯一的数字 ID 相关联,模型通过这些 ID 来区分不同的 token。毕竟上游服务商是根据token数量来收钱的,一段内容被拆分的token越少,自然就便宜。语言输入和输出带来的成本差异,就是因为token这个小东西。根据牛津大学的研究,让一个语言大模型处理一句缅甸语句子需要 198 个tokens,而同样的句子用英语写只需要 17 个tokens。但凡稍微会点数学的,一眼就能明白。很明显,缅甸语句子使用这种服务的成本比英语句子高出 11 倍!那要是中文呢?有人做了一个测试,让OpenAI的GPT2对“国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异”这句话进行tokens拆分。结果是,用简体中文被拆分成66个tokens,在英语处理中仅用到了24个tokens,而在缅甸语处理中则用了高达468个tokens体现在费用上,简体中文的费用大约是英语的2倍,西班牙语是英语的 1.5 倍,而缅甸的掸语则是英语的 15 倍简体中文表示,原来我并不是最复杂的语种,也不是最高贵的那个!

语言,AI鸿沟的诱因?

在互联网时代,数字鸿沟是一直不能回避的问题。所谓数字鸿沟,是由于对信息、网络技术的拥有程度、应用程度以及创新能力的差别,由此出现的信息落差,并导致贫富进一步两极分化的趋势。简单来说就是强的更强,弱的更弱。而现在的AI也正在呈现这样的状态——AI鸿沟。AI的强大与否其实特别简单粗暴,数据、算力、算法是三个最核心的部分,而前面说到的语言,就是数据的一种,也可以被称作语料。在大量的语料面前,追求性价比是很正常的事情。既然英语的费用是最低的,那么为什么不大量采用英语语料呢?同时,全球最大的社交媒体、技术社区有着非常丰富的高质量英语语料可以用来训练大模型。这就进一步加剧了英文环境下的大模型与其他语种之间的AI鸿沟。在谷歌、微软、Meta和亚马逊等巨头面前,他们不担心算力,不担心算法,而英文语料对他们来说也是唾手可得。这样的状态下,要保持领先可以说轻而易举。而其他语种的语料呢?以中文为例,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%,其中高质量中文语料就更少。有人开玩笑说,中文大模型没必要非得搞搜索和问答。多用微博和知乎的语料,搞一个AI抬杠小能手和AI吹牛小能手也是个出路嘛!

也有人说,中文语料不是质量不高,是浓缩性、典故性太强,人都不一定读得懂,指望AI理解?不过即使如此,开发本土中文大模型是必须要做的。科大讯飞的星火大模型在发布时称,要在短时间内达到中文能力超越ChatGPT,英文能力与其持平。而现在百度的文心一言和360的360智脑在中文能力上,表现得也算可圈可点了。不过,有研究表明,到2026年全世界的语料将陷入枯竭,到时AI训练所需的必要数据将没办法再获得。不知道到最后,会是AI先成精,还是人类依然统治地球。 ▼最新活动▲

 ▼精彩视频▲

相关AI人工智能行业展会

2026年深圳国际元宇宙及电竞娱乐展MES

2026-03-01~03-03 距离195
78471展会热度 评论(0)

2025年上海世界人工智能大会WAIC

2025-07-26~07-29 展会结束
261393展会热度 评论(0)

2025年郑州世界数字产业博览会WDIE

2025-03-21~03-23 展会结束
62166展会热度 评论(0)

2025年北京全球数字经济大会Global Digital Economy Conference

2025-07-02~07-05 展会结束
62017展会热度 评论(0)

2025年苏州人工智能展AIExpo

2025-07-28~07-30 展会结束
84390展会热度 评论(0)

2025年深圳高交会人工智能与大数据展CHTF

2025-11-14~11-16 距离88
54311展会热度 评论(0)
X
客服
电话
15103086018

服务热线

扫一扫

世展网公众号

微信小程序

销售客服

门票客服

TOP
X