知乎问答:早前国产大模型如雨后春笋,为何最近没声音了

来源:世展网 分类:AI人工智能行业资讯 2023-06-25 21:18 阅读:*****
分享:

2025年北京全球数字经济大会Global Digital Economy Conference

2025-07-01-07-01

展会结束

点击↑维科网人工智能→主页右上角→设为星标

知乎热门问题——「前两个月国产类ChatGPT大模型如雨后春笋,为何最近都没声音了」已经引起了 200+ 条讨论,本文收录了该问题下的高赞回答,一起围观大家怎么看待这个现象。
原问答链接:https://www.zhihu.com/question/604592470;本文只作意见集合,版权属于内容原创者。

匿名用户

因为,宣传的时候是这样想的:学霸花几个小时做的题,我五分钟就抄完了,研发能力完爆学霸,so easy。真正做的时候:我笔也准备好了,纸也准备好了,算力也准备好了,一次性人员耗材也准备好了,名字都起好了———就等学霸开源了。现在大家都在要成果了:啊?学霸,你开源呢?你怎么不开源了!是不是玩不起?!网友跟评:

Terminus

ppt发布了,团队组好了,结果发现这次 openAI 居然不开源…

匿名用户

很简单,美国方面没开源。

别人做出来的东西,不给抄就是卡我脖子。

到处挖坑蒋玉成

因为事实证明“100B级全尺寸大模型对公众提供服务”是一条彻底的死路。目前看来,计算成本大幅下降的可能性完全不存在(别忘了老黄和台积电都不是做慈善的,N4甚至更先进制程的成本非常高),而对公众提供服务的计算需求却随着用户访问量增长而不断地水涨船高,结果就是支出与收入完全不成正比。所以现在可以看到,萝卜快了不洗泥,连理论上财大气粗不差钱的OpenAI自己都开始偷工减料缩模型了。

于是这就陷入了恶性循环:模型缩水——性能变差——用户付费意愿变差——收入缩水——成本压力进一步增大。既然OpenAI自己都差点变成先烈了,作为后来者,那还何必去触这个霉头呢

姚冬

不是没声了,是你听力不好,或者听错了方向。前几个月一波集中的媒体宣传主要是ChatGPT带来的热度,一大群自媒体跟着吹牛逼,反正那时大模型代表先进生产力,怎么吹都无所谓,于是各种花式吹牛逼和卖课割韭菜如雨后春笋。国内的大模型厂商,其实都不是那时才开始做大模型的,很多是两三年前就在跟进这个方向了,比如百度,阿里,智谱,Minimax等 ,他们只是借着chatGPT的火爆借势做了一波宣传。另外还有一批创业司,借这个机会融资,比如王小川,王慧文等。这些初创公司为了融资组团招人,自然要高调宣传一波。这段时间,chatGPT 的热度也过去了,chatGPT的火爆是把过去三年的技术积累一下子释放的结果,短短几个月也很难再有更惊艳的东西发布。现在能做大模型的都还在积极改进调优,初创企业还在屯显卡招人,搭建训练平台,都是在默默积累技术。前些天王小川的团队放出了baichuan-7B,从开始融资,到组队屯卡训练模型,整个过程只有几个月,王小川的速度还是挺快的,当然也是钱挺多的。其实基于大模型应用开发也不是那么简单,做个原型好说,做成有价值的产品还是需要时间打磨的。就像特斯拉从发布概念车到普通人都能买得起的电动车,中间用了快十年。不要看抖音博主演示的chatGPT无所不能,已经碾压人类了。但是当你实际解决问题的时候,调试起prompt来,你会发现即使ChatGPT4有时依然是个傻X。但是不妨碍资本市场依然火爆,各种Al大模型,通用人工智能AGI公司依然在融资,天使轮,AB轮都有。也不妨碍各家云厂商依然在努力屯显卡,A100 A800 H100依然是一卡难求,有人调侃说走私显卡赚钱堪比走私那啥。你看,就在前几天英伟达也成为了新一代万亿美元的企业。不管大模型发展怎么样,反正皮衣老黄是赚到了。一项有可能决定人类未来的技术,不会这么快就尘埃落定的,即使这个方向是错误的,它也不会这么快过气的。

木羊

ChatGPT很震撼,而且是与过去AI产品完全不同的震撼。过去的AI产品,譬如说AI绘画,往往是圈外很震撼,圈内觉得也就那样。原因很简单,信息差。圈内是看着AI产品从不行到不怎么行最后一步一步发展到很行,你见证了这个过程,最后结果对你的震撼效果多半是要减半。不过,AI产品梳洗打扮的过程圈外通常是不怎么了解的,等能“破圈”时已经经过了漫长的改进,初见自然惊为天人。ChatGPT推出来最受震撼的是谁?是AI界的扛把子“谷歌”。谷歌不仅仅是站在AI发展的浪潮之巅,而是浪潮本身。可是,谷歌这次狼狈不堪。现在谷歌张开闭口都AI安全伦理,不过知道的都知道,这是给狼狈不堪换了个体面点的说辞。为什么国内NLP甚至整个AI圈子当时看了ChatGPT感觉很绝望:如果谷歌倾尽全力用半年时间来追,最好的结果也就只是有来有回,那么请问,在座各位距离追上谷歌又还有多远呢?门槛很高。所以当时很多人包括我的认为,以后NLP不用玩了,都围一块坐在台下看几位大佬表演就好。结果呢?这俩月的事大家都知道了,大厂争先恐后地发布“大模型”,不但不是不用玩,而是都来玩。一些以前分明不是搞AI的企业,居然这波也说要推自己的大模型。为了给大模型找个好听的名字,神话故事书都翻烂了

金石

总结成一句话就是:除了GPT-3.5/4之外的大语言模型(LLM),智能都不够高,离落地还有一定的距离。好好炼丹才是王道,智能上不去,宣传再多也不会有人买账。和很多业务团队一样,过去的几个月我们一直在尝试LLM的B端落地。但目前的进展并不理想。以下是一些前线战报:闭源LLM的落地情况目前闭源LLM里能真正商用的只有GPT-3.5/4,实测其他模型的表现都不太好。使用闭源模型的最大问题是信息安全的挑战,很多企业都严格禁止把核心业务数据发给外部的LLM。开源 LLM 的落地情况我们基本把业界呼声比较高的开源 LLM 都测了个遍,过程就不细说了,只说一些结论:
  1. 目前(2023-06-23) 所有的开源LLM智能都不够高,输出不稳定,落地难度很大,所以还需要各路炼丹师继续努力。
  2. 很多模型只是宣传的好,实际上就是吞噬显存的人工智障,这类模型以Dolly-V2为代表,基本没有办法正常交流。
  3. 一些模型在日常交流中表现良好,但放到垂直领域还是不太行,这类模型以Vicuna为代表。受限于token数量,现在业界的普遍玩法是LLM+垂直知识库,再使用一些稀奇古怪的咒语 (Prompts)来指导LLM完成任务。有点能力的团队都能把POC (Proof of Concept)做出来,但如果想放在复杂的生产环境中使用,预计会遇到很多很多问题。
  4. 由于商业许可的限制,表现好的模型(比如Vicuna)大多不能商用,只能用来做实验,这也是制约落地的一个关键因素。
  5. 在需要高度精密的业务场景下,无论是GPT-4还是其他模型,都暂时不可用,因为输出结果不可预测,精度无法保障。
  6. 现阶段学会念咒(prompt engineering)很重要,好咒语可以让LLM的输出接近它的智能上限。不会念咒你很可能得到一些奇奇怪怪的输出。每个模型的喜好都不太一样,这和炼丹手法有关系,找到最适合模型的咒语,需要很多人力来反复试验。
  7. 国产开源LLM还是挺能打的,比如ChatGML,在垂直领域的表现比Vicuna还要好。
  8. 不要指望把整个垂直知识库塞到模型里做fine tune,这需要很高的成本和优秀的炼丹手法。作为业务团队,我们能做的只是让LLM学习一些我们提问的方式以及预期的回答格式。有时候光靠念咒不够,还是需要一些低成本的fine-tune。

大白

年初facebook (故意)泄露 LLAMA 模型之后,特别是基于 25K 数据fine tune 的 alpace模型看起来效果不错之后,国内的企业都疯了。它们觉得离自主研发的大模型也就一步之遥,最多就是自己爬一点中文数据,用lora 训练一下吗。说不定都不需要gpu 集群,技术什么的完全不是瓶颈,最关键的是商业卡位,谁的嗓门大,吸引的眼球越多,商业胜算就越大。当然这两个月,现实教会了他们怎样做人。如果说ChatGPT是10分的话,那么llama 只有1分。没错,llama 只解决了从无到有的问题。从1 到9 的路要自己走。openai也很鸡贼的没有公开这些技术细节。而且更糟的是,如果大模型不足够成熟,比如达到7分以上(拥有涌现能力),其实是完全无法使用的。于是大家一起亚麻呆住了。(本帖子主要揭露国内某些准备空手套白狼的大模型公司们。)

chengxd 达达

两个原因:水平确实不如OpenAI,外加商业模式一直没有能够跑通。

水平不如OpenAI,没法真正用于生产力 个人直接观感,百度的文心一言水平大约在GPT 3到GPT 3.5之间,还没有达到一个真正可用的程度。我现在查资料、解决一些问题基本都会问一问new Bing(GPT 4),很少真正启动文心一言。没有生产力,最后就真的只是玩具,没办法真正吸引到付费会员付费意愿。其次,商业模式没有跑通的意思是,不赚钱。目前百度的文心一言对于个人用户是内测用户免费试用,对商业用户调用API是每1000个token收费0.016元。目前据我所知,哪怕是API收费这个价格都是亏钱的。即便未来推出会员制度,受制于汇率问题、居民收入水平低,也和Open AI存在很大的差距。Open AI收费20美元一个月,按照汇率简单换算就是140人民币每个月。可是百度要在国内推出文心一言的个人版会员的话,收费99块人民币一个月,国内舆论该把百度喷成啥样?最多也就是20-30人民币一个月的会员收费,了不得了。为什么Netflix能赚钱,国内的爱奇艺在亏损边缘挣扎其实也是同样的道理。那么这就会导致国内的大语言模型商业化应用,处在天生的劣势。

二营长的意大利炮

当年那兔刚开始火的时候,很流行一句话叫“摸着鹰酱过河”,很多人认为中国可以就这样着“复制”美国,最后“打败”美国。

但是,这句话还隐藏着另一层意思:在“过河”的时候,下一步该往哪里走,必须得等到美国过去了才知道。也就是说,一个新玩意到底应不应该搞,不是靠自己分析、论证来决定,而是要先看到美国人做成了,才可以“安心”地模仿。私以为,这种不愿承担探索的风险、只想跟在别人后面捡现成的心态,其本身的危害性自不必说;但更要命的是,很多人,甚至包括官方,对这种行为不以为耻、反以为荣。

倪静风

听说后面可能要发人工智能大模型许可证不知道真的假的。人工智能要砸很多钱,数据集,算力,算法,人才,运营,每个点都要砸钱,只有有实力的玩家玩得起。先发布的人工智能,有市场优势。程序员急需专业写代码的人工智能,但现在的人工智能支持都不行,理论上可以做出专业写代码能力很强的人工智能,这个是刚需,希望有公司专门做这一块,解决写代码生产力问题。

水果忍者0西瓜

前两个月有声音,是因为ChatGPT火了,媒体才跟进报道。现在没声音,就是因为媒体不报道了呗。你不会以为那些东西两个月就能做出来吧

烟之骑士蕾姆

互联网第x次工业革命的风口不都这样吗一吹就是第x次工业革命。一看落地屁都没有。别问,问就是已经渗入国外生活的方方面面了,外国马上就要起飞了。

小杠杆

因为没噱头了,媒体不关心了 ...事实上不仅有大厂,还有很多高校也在跟进这些...比如清华的 ChatGLM-6B。体验了一下和以前的智能助手对比已经可以花式吊打了,尽管小毛病还不少。但是在部分网友眼里,这种小模型都只是学舌的鹦鹉,没有巨大的参数支撑,只能保证说出来的话是句话,不存在任何智慧,尽管是chatgpt那种弱智的智慧。

绝不原创的飞龙

天下苦算力短缺久矣,全中国的算力加起来也只不过能训练 6~7 个 GPT3 级别的模型。还有人总是惦记超算里的CPU。我长期实验发现,RX6400(12cu)的超分辨率速度是TR-3970x(32c64t)的十倍。前者优化一帧需要0.2~0.5秒,后面那个是2~5秒。多少超算都不够用的。

薄荷

因为碳基智能比人工智能便宜。

 ▼最新活动▲

 ▼推荐阅读▲富士康一季度净利下滑56% 称电动汽车未来多数会走向专业代工反向操作!小米竟宣布不做AI大模型了?阿里云:十年之期已到,创始人回归

云从“国家队”谎言戳破,寄望“从容大模型”救市

马化腾:腾讯不出AI半成品,有些人太急了

传三星电子开发XR芯片,剑指高通

大瓜!涉嫌重婚罪!腾讯前副总裁被拘

寒武纪裁员:软件研发部门为重灾区

相关AI人工智能行业展会

2026年深圳国际元宇宙及电竞娱乐展MES

2026-03-01~03-03 距离239
75201展会热度 评论(0)

2025年上海世界人工智能大会WAIC

2025-07-26~07-29 距离21
203233展会热度 评论(0)

2025年郑州世界数字产业博览会WDIE

2025-03-21~03-23 展会结束
57906展会热度 评论(0)

2025年北京全球数字经济大会Global Digital Economy Conference

2025-07-01~07-01 展会结束
57807展会热度 评论(0)

2024年苏州人工智能展AIExpo

2024-12-10~12-11 展会结束
80450展会热度 评论(0)

2025年深圳高交会人工智能与大数据展CHTF

2025-11-14~11-16 距离132
51221展会热度 评论(0)

2025年中国国际供应链促进博览会-北京链博会CISCE

2025-07-16~07-20 距离11
164610展会热度 评论(0)

2025年第6届深圳国际人工智能展GAIE

2025-05-22~05-24 展会结束
83650展会热度 评论(0)
X
客服
电话
13924230066

服务热线

扫一扫

世展网公众号

微信小程序

销售客服

门票客服

TOP
X