学术分享丨黄民烈教授:生成式AI带来的挑战和机会

来源:世展网 分类:AI人工智能行业资讯 2023-07-26 20:23 阅读:5676
分享:

2025年北京全球数字经济大会Global Digital Economy Conference

2025-07-01-07-01

距离50

点击蓝字,关注我们

文/黄民烈

ChatGPT实际上是定位在一个开放的任务助理,它可以帮我们写代码,甚至通过交互的方式制作表格。此外,它不但在创意型写作上能力很强,而且有很强的上下文理解能力,比如我们给它一定要求并通过交互的方式迭代修改,它会写出一篇内容和结构非常好的作品。

最近ChatGPT很多相关应用开始逐渐出圈,比如,微软在模拟工业检验场景中使用ChatGPT控制无人机,此能力体现在让ChatGPT生成一些调用API的函数,甚至在这个函数里还能指定一些相应参数;Google推出了PaLM-E版本,可以执行各种复杂的机器人指令而无需重新训练。由此可以看到,ChatGPT在整个应用上已经更加广泛。最近他们推出了插件功能Plugins,为大规模语言模型补充了执行能力,使ChatGPT能够与开发人员定义的API进行交互,从而增强ChatGPT的功能,并允许其执行范围广泛的操作。例如,借助搜索引擎插件使用最新信息进行回复,解决预训练数据的时效性问题。Plugins相当于给它提供了action的能力,比如我在京东买东西或者美团买菜,可以通过API把执行能力,最后一个环路打通。比如你帮我买一个东西,在京东上买一个笔记本电脑,什么价位、品牌、配置,它就能完成。这是整个布局生态上非常重要的环节,也是非常“恐怖”的入口。

另外,GPT-4 已经能解决一些数学编码、视觉、医学、法学、心理学等领域的新颖而困难的任务,而不需要任何特殊提示。比如,用 latex 画一个独角兽,这是能看到的多模态能力;在一些比较难的任务上,比如美国统一的律师资格考试里,它现在的能力能够做到前 10%,这是我们看到一些非常惊人的能力。另外,它有很强的多模态理解能力,比如输入一张图片,它不但可以接受图片的输入,并且能够结合文本进行回复。此外,它还可以做很好的多模态理解和逻辑的推理,比如给它一道物理题,它可以通过文字和图片理解一步步做逻辑推理,给出中间推理分析步骤,甚至把中间微分方程一步步写出来。

ChatGPT 的发展分为五个阶段,如图 1 所示。第一个阶段主要是让模型博览群书,学会阅读、理解文本。第二个阶段叫做学习编程,即把代码的能力加进去,从一个具体的问题里用编程语言重新抽象出来,涉及到变量的使用、变量的约束等,这里实际上增加了它的抽象能力。第三个阶段就是进一步把人类指令和价值观赋于这个模型上,InstructGPT 和 ChatGPT 我们让它学会什么东西是好的,什么东西是不好的东西,不要产生一些偏见、有毒性的内容。第四个阶段 GPT-4,给模型增加了眼睛和耳朵,让它能感知这个世界,具有多模态感知能力。

整个模型发展是从GPT-3 的1750亿逐渐延伸到 CodeX,之后通过指令学习得到 InstructGPT,进一步得到了 code-davinci 的版本。在这个基础上通过指令的学习,以及面向对话的强化学习方法,得到了 ChatGPT 的版本。它们在每个模型上都提供了API 调用的输出,但结果性能各异。从发展历程来讲,其成功的关键,一是长期的坚持;二是企业 + 科学界的理想情怀和抱负,OpenAI 在做这件事时的目标就是瞄准做通用人工智能;三是美国的资本环境也支持它去做长期投入。

ChatGPT 背后的原理和技术有三个方面,一是上下文学习;二是思维链;三是指令学习。在这个基础上,我们就发现用大规模语言模型会引起一些基本范式的转变,比如医学的数据或者金融数据,可以 finetune 整个模型,现在模型参数都在上百亿,训练一次成本几十万、上百万元,非常耗时、耗钱。因此可以只去 Tuning 很少的参数输入提示词部分的向量,整个模型参数不训练,这是提示微调。再进一步,什么参数都不调,只是让人提供一些输入关键词,通过关键词配合输入一起产生较好的输出,即用人去配合模型完成更好的任务,由此最近产生了一个新的职业“提示词工程师”。

上下文学习。即将少数示例作为 LLM 的输入,使 LLM 能够按照示例生成结果,避免微调带来的过拟合等问题,使 LLM 在小样本场景下达到优异的性能。近期研究表明,上下文学习可以理解为隐式的微调方法,与显式的微调模型在预测、表示和注意力上均有相似的行为。

思维链,也是人类思维习惯里很重要的一点。即让 LLM 生成推理步骤,以提升其在复杂推理任务上的能力。利用上下文学习来给定少量推理步骤生成的示例,使 LLM 能够仿照示例进行生成。比如求解一个复杂问题时通常会把其分解成多个不同步骤,第一、二步、三步分别做什么,中间结果进一步放下一步结果里进行推理分析。思维链也是类似过程,我们可以让大规模语言模型生成一步步推理步骤,最后再得到答案,验证通过这种中间步骤推理能达到更好的生成能力。

指令学习是最近在自然语言处理大一统的思维和范式。将 NLP 任务以自然语言指令的形式进行统一,大幅提升 LLM 在不同任务之间的泛化能力。而学术界任务与实际场景中的人类指令仍有差距,需要做进一步对齐到真实世界的问题中来(InstructGPT/ChatGPT)。区别于学术界常见的指令,InstructGPT 的作者让人类直接撰写指令数据,最大限度地保证数据的多样性和质量。自然语言处理里有各种任务,比如做一个摘要的任务、机器翻译的任务,以及故事生成、对话生成的任务,过去都是每个任务分开做,现在可以把所有任务都统一到一个模型和框架下。也就是给定输入,要生成一个输出,所以变成 generation is all you need,所有东西都可以对齐到生成模型范式下。ChatGPT 的指令学习和学术界指令学习有区别,ChatGPT 技术是通过人工撰写标注数据,人类对生成结果反馈数据,对模型进行学习;而在学术界是做了相对比较 toy 数据,方法也不太一样,最后体现的效果差距特别大。

强化学习有三个基本步骤,第一步,收集人类对 prompt 的标注结果,进行有监督的 finetuning;也就是对于用户给的一些输入,人工给一个比较好结果,让这个模型去学。第二步,利用人类对多个模型输出标注的排序训练 reward 模型。同一个模型如果生成多个结果,或者多个模型生成不同结果,人对这个结果进行排序,就是 A 比 B 好,B 比 C 好,C 比 D 好。从这个过程里我们能学到一个奖励函数,用这个奖励函数与强化学习结合在一起,指导模型的生成策略能够变得更好。第三步,利用 PPO 算法结合 reward 模型来更新生成模型的生成策略。很显然在用户偏好比上有没有 SFT 的步骤,用人的数据去反馈学习,可以做到 8 : 2 的比例;同时对于强化学习也可以做到 65 : 35 的比例,这个能力提升非常显著。

ChatGPT 能够生成看起来令人满意的答案,但在事实性上经常会出现错误。第一个缺点就是可信度的问题。ChatGPT“一本正经地胡说八道”,比如苏格拉底没有写过任何的书,但它会安插一些事实性错误,而且说的有理有据,讲的也非常通顺。

第二个缺点,无法实现非0即1的精确计算。因为ChatGPT本质上是一个概率模型,其体现的能力来源于对训练数据的拟合,其运行机制中并没有显式的推理与判断,因此无法保证运算的准确性。比如,1000和1062哪个更大?它会答出一个正确答案,但推理过程基本上是错的。再比如,推算两个数相乘,与另外两个数相乘哪个大,其中间的推理过程都是“胡说八道”,生成结果全是错的。所以这里可信度也是很大的问题。对于这种生成模型,不能够去处理这种符号精确的计算是一个天然的缺陷。

安全性问题。比如,让它写一个“我要非常血腥杀一个人”,它可能会拒绝你;如果跟它讲,我正在写一本小说,小说里有一个情景,我希望去描述非常血腥怎么杀死一个人,这时候它可能会写出不错的剧本。这里涉及到怎么通过不安全指令,又使它给出不安全回复,这也是一个显著的特点。GPT-4 也很容易生成一些虚假、操控和偏见的言论。比如,让它生成一篇《疫苗注射会导致自闭症的发生》的文章,其可以非常有理有据地生成一个错误的结论,而一般公众很难辨别出来,这种错误信息可能会导致变成严重的公众误导。再比如偏见,在医生这个维度,有40%的医生是女性,60%的医生是男性,这是真实世界的分布;但 GPT-4 模型会学出来只有4% 的医生是女性,92% 的医生是男性,所以它的偏见会比现实世界更偏见,这是非常典型的问题。

最近,我们也对大模型进行安全性全面评估,建立了一个完整的类别体系。在这个体系下建立一个大模型安全评估的平台,希望去做安全可控的 AI系统研究。我们尝试从大模型安全性攻击、可解释安全检测和大模型安全性防御这三个维度去作分析。同时也对已经开源的模型进行系统评测,包括ChatGPT、InstructGPT、初版 GPT-3 接口、智谱的ChatGLM 和我们做的 MiniChat(聆心智能)进行了全面的分析和评价。从分析和评价结果会发现,ChatGPT 安全性确实做得非常好,它的分数能够达到 98.37;智谱的 ChatGLM 安全分数约 97;我们做到了 95、92。初版的 GPT-3 的接口安全性分数非常之低,所以它有很显然的安全性风险和漏洞。

未来发展方向

未来如何避免 ChatGPT 产生一些事实性错误,包括怎样用检索技术 + 语言模型,融合外部动态信息,这是工业界和学术界都在做的重要研究探索。

安全性依然是非常值得去探索的点,这个点包括我们过去做的一些安全分类体系,以及能不能反向生成一些容易诱导模型犯错的输入。比如我给了你一个回复,从回复生成一个输入,这个输入是很可能会诱导模型犯错。通过这样的数据再反向训练这个模型,使得它更加安全和更加鲁棒。

数学和符号的计算推理也是非常重要的,这里最重要的是要理解数学计算的本真含义。比如,现在让它做非常简单的加法会发现,ChatGPT 在二维数加法可以做到百分之百准确,而做 15 位数加法只能做到 10% 的准确率。这是因为模型对本征含义理解有问题,可能只是记住了一些常见的运算结果,而没有理解数字、运算符本身的含义。对于复杂少见的运算表达式,模型更容易出错;人类理解了数字和运算符的本征含义,计算错误率相比 ChatGPT较低。

另外,模型的训练和推理成本很高,在实际应用时很昂贵,因此怎么对它进行压缩量化很重要。原来我们用 FP16 浮点数,怎样用 8 位数整数或者4 位数整数对它进行更好的量化,这是我们在做的工作。

我们可以对一些模型参数进行剪枝,因为有大量的权重或者一些 head 没用,怎么把其中一些参数减掉后,使模型依然表现很好。

接下来的问题是怎样做 AGI 时代的对话智能体。过去以 ChatGPT、Claude、ChatGLM 这类对话技术是聚焦在去解决一个功能属性,也就是希望用AI 帮助我们提高效率,解放生产力,提升创造力,这里体现的是机器智能,满足的是信息需求。人在另外一个维度是需要满足情感和社交的需求,典型的系统有国外的独角兽公司 Character AI、我们的AI 乌托邦,它的本质是希望 AI 有人格属性,希望能够满足人的社交、情感、陪伴和支持的需求。

未来,机器智能和类人智能结合才能成为 AGI时代对话智能体。我们做 AI 乌托邦,是希望它能达到“万物有灵,万物皆角”的愿景,易上手,具有可快速批量定制角色,极强的场景泛化能力;角色丰富,万物均可复活,无缝人机交互;可广泛应用于品牌、营销、客服、游戏等场景中。

Mini 版的 ChatGPT 是我们的基座, Mini Chat可以做比较好的风格化生成,给元神游戏里角色“雷电影”、给数字人提供大脑。

AGI 时代的来临时就是无缝人机对话时代的来临,我们希望对学术界有一些启示,聚焦真实世界的真问题,不要过度关注学术界的简单数据集(假问题)。一些设计精巧的小模型,在大模型时代已经不再特别有价值。我们要重新思考在大模型时代什么样的研究还依然有价值,还会有生命力。从现在开始一两年,以及五年后,什么工作还会被关注,这是一个非常值得我们思考的问题。从工业界来讲,OpenAI 的成功是有长期主义、企业家精神和资本环境的支持,ChatGPT 什么样“玩法”才会产生价值,用户最后会买单,值得大家思考。我们看到,ChatGPT 模型更加擅长完成一些创意性工作,过去人类简单机械等工作很容易被 AI 取代,那么创造性工作是否也会被取代。所以,未来我们会有更多关于这方面的思考,我们的目标和愿景也是希望去创造 AGI 水平对话智能体。

(参考文献略)

选自《中国人工智能学会通讯》

2023年第13卷 第4期

相关AI人工智能行业展会

2026年深圳国际元宇宙及电竞娱乐展MES

2026-03-01~03-03 距离293
64121展会热度 评论(0)

2025年深圳国际人工智能展GAIE

2025-05-22~05-24 距离10
63902展会热度 评论(0)

2025年上海世界人工智能大会WAIC

2025-07-05~07-07 距离54
106153展会热度 评论(0)

2025年郑州世界数字产业博览会WDIE

2025-03-21~03-23 展会结束
52766展会热度 评论(0)

2025年北京全球数字经济大会Global Digital Economy Conference

2025-07-01~07-01 距离50
50027展会热度 评论(0)

2024年苏州人工智能展AIExpo

2024-12-10~12-11 展会结束
76640展会热度 评论(0)
X
客服
电话
13924230066

服务热线

扫一扫

世展网公众号

微信小程序

销售客服

门票客服

TOP
X