想知道有没有什么软件能进行汽车速度对比?,

大模型实用性测评丨8款国产大模型 PK ChatGPT

8月31日,首批8家企业/机构的大模型通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。

这8家包括:

  • 百度(文心一言):https://yiyan.baidu.com/
  • 抖音(云雀大模型):https://www.doubao.com
  • 商汤(日日新大模型):https://www.sensetime.com/
  • 智谱AI(GLM大模型):https://chatglm.cn
  • 百川智能(百川大模型):https://www.baichuan-ai.com/
  • MiniMax(ABAB大模型):https://api.minimax.chat
  • 上海人工智能实验室(书生通用大模型):https://intern-ai.org.cn/home
  • 中科院(紫东太初大模型):尚没有单独的网页版或APP产品

相信不少人和极客智谷一样好奇,国内首批通过备案的大模型功能各有何特色?实用性怎样?与ChatGPT相比水平如何?于是带着兴奋与期待,我上手体验了这几款国产大模型产品以及ChatGPT。

作为一个文案狗,我主要是从知识广度与新鲜度、多种文体和风格的学习与写作能力、创新和创意能力等几个维度测试,同时在使用中感受交互性、自我优化能力、便捷性等。

值得注意的是,紫东太初尚没有单独的网页版或APP产品,书生大模型官网上也尚未看到体验入口,而商汤的商量在笔者体验期间始终显示正在升级,因此也未成功注册。

逻辑有余,创意不足

笔者首先测试了大模型产品们的知识储备。我以网络流行词“E人和I人的含义”为题进行提问,文心一言、百川和智谱清言以及MiniMax的MM智能助理均给出了正确的答案。从回答详尽程度上来说,百川和智谱清言不仅解释了“E人”和“I人”的具备含义,还指出了该概念最早由心理学家卡尔·荣格提出,并在最后温馨提示人的性格可能包含多种特质,划分并不是绝对的。对比来讲,文心一言的回答则比较简单生硬。

智谱清言:

文心一言:

而这个问题中表现较差的则是抖音的豆包以及ChatGPT,其中豆包对E人的解释出现了明显的错误,它称E是Emotional情绪化的人。

豆包:

ChatGPT第一次则是直接指出E人和I人不是通用的中文词汇,因此无法准确理解它们的含义,在经过简单提示后才给出了猜测性解释。但当换一个问法再次询问时,ChatGPT又给出了准确的回答。可见它并不是不具备相关知识储备,只是对中文的理解还不如本土的大模型。

ChatGPT:

极客智谷又以小学语文课文中的“狼牙山五壮士以及狼牙山的地理位置”提问,此次百川与智谱清言表示“还没学习如何回答这个问题”、“无法提供需要的信息”,ChatGPT、豆包和MM智能助理则给出了准确的答案。百度的文心一言在这一轮问答中暴露了语义理解和分析能力上的一些缺陷,在一句话包含两个问题时,文心一言只选择性地回答了其中一个。但很明显,文心一言也是具备相关的知识储备的。

文心一言:

之后,笔者又提问了一些诸如“人工智能的发展历程”、“人工智能的技术体系”等问题,无论是国内大模型还是ChatGPT均能给出相对详细的答案,准确性也更高。整体来看,ChatGPT的知识储备更全,但中文的理解方面稍逊一筹,国产大模型在某些细分领域需要更多数据信息的采集与训练。

在传统新闻稿的写作上,我以近期“瑞幸与茅台联名推出酱香拿铁”为题,百川、智谱清言、文心一言以及MM智能助理都提供了还不错的答案,无论是逻辑性还是文章的完整性上都值得参考。但豆包仅是列出了其搜索到的新闻网站中的信息,并未完成新闻稿创作的指令。

豆包:

而ChatGPT虽然也撰写了一篇完整的新闻稿,但其中编造了很多不实、虚假信息,诸如产品推出时间、高管姓名及发言等。

ChatGPT:

紧接着我又让它们为酱香拿铁的宣传片写一个脚本,这次大模型产品们都完成了任务,但从逻辑上来看,豆包的回复仍稍显敷衍,只是将每一幕的场景简单描绘,而其它几款大模型则分出了镜头画面与旁白等,更加清晰有逻辑。

豆包:

最后,我想重点考验一下大模型们的创意创作能力。于是提问了大模型们关于“库迪的品牌联名建议”以及“如果为蜜雪冰城和五粮液的联名产品起名字和广告语”等问题,最终所有大模型给出的回复都比较常规,参考意义不大。

总体来说,各家大模型都基本具备了多种文体和风格的写作能力,对比来看,豆包写作能力稍弱,ChatGPT则更喜欢胡编乱造,易产生AI幻觉。但在文本创意上,大模型的帮助都不大。

除此之外,在使用过程中,笔者也发现,MM智能助理的反应速度相较其它大模型产品来说较慢,其官网也指出了体验用户(未充值)调用接口时会被限速。


基因不同,各有特色

在体验过程中,笔者也发现几款通过备案的大模型产品各有特色。而特色背后,则是公司基因决定的。

文心一言是国内首个发布的生成式AI产品,于2023年3月16日开启邀测,基础模型文心大模型早在2019年就在国内率先发布。作为百度AI十余年成果的集大成者,文心一言与其它大模型相比,功能及场景更全。其中最与众不同的是,在官网界面上,文心一言提供了百度搜索、览卷文档等四大插件,百度搜索默认启用,这也决定了其知识检索收集能力相较其它大模型更强。除此之外,文心大模型在图文创作方面也有着绝对的优势,其它产品基本只支持文本创作。

抖音的豆包入场时间较晚。从官网界面设计上看,其也沿袭了抖音的社交基因,更加拟人化,将自己定位成“你的智能小助手”,看上去主打聊天属性,实用性稍弱。

智谱AI是由清华大学计算机系技术成果转化而来的公司,其研发的智谱清言最具特色的地方是具备青少年模式,对话内容来自于权威教辅数据训练所生成,并且有禁用时间和对话轮次限制,颇有学研风范。

百川大模型背后的百川智能成立时间还不到半年,但在大模型赛道炙手可热,其是由前搜狗CEO王小川创立,已经对外发布了三款大模型产品。百川大模型的官网界面也是几款大模型产品中最为简约的。

MM智能助理背后的MiniMax,是由前商汤科技副总裁、通用智能技术负责人闫俊杰成立的大模型初创公司,其ABAB大模型从今年3月开始面向企业用户开放API平台,B端特性也让MM智能助理具有较高的使用门槛。

写在最后

或许一个普通用户的体验远远算不上测评,但可以确定的是,伴随着首批大模型产品通过备案,大模型有望从拼参数到迎来下一个阶段的应用之战。

然而C端用户付费意愿相对较弱,通用大模型的商业模式将如何跑通?极客智谷认为,B端市场是大模型落地相对较短的路径。讯飞星火大模型已经在教育、办公、汽车、金融、工业、医疗等展开了布局,百度也在持续推出大模型重构的产品及解决方案,B端之战已经打响。在这场应用之战的较量中,谁能率先抢到更多B端筹码,才能在大模型时代画下浓墨重彩的一笔。

2024-01-09

2024-01-09