新知榜官方账号
2023-09-04 22:43:46
8月31日,首批11家国产大模型获批上线,包括百度的“文心一言”、商汤科技的“商量SenseChat”、智谱AI的“智谱清言”、MiniMax的“ABAB”、上海人工智能实验室的书生通用大模型、抖音的“云雀”、百川智能的“百川”以及中科院旗下的“紫东太初”、科大讯飞的“讯飞星火认知大模型”、阿里“通义千问”、360智脑。其中,文心一言、商量SenseChat、抖音基于“云雀”研发的AI智能助手“豆包”、智谱清言、MiniMax的“ABAB”、“讯飞星火认知大模型”已经面向公众开放测试。另据第一财经报道,阿里“通义千问”、360智脑也预计在未来一周左右陆续开放。
自今年2月ChatGPT掀起“生成式AI”热后,国产大模型齐齐备战,7个月后的今天,到了验收成果的时候。就速度而言,不可谓不惊喜,但真正让人关心的还是效果如何。《财经故事荟》体验了上述6家已经开放测试的大模型,从文本创作、数理计算、作画、信息检索等角度与其做了对话,发现这些大模型已经能解决相当一部分问题,尤其在文本创作方面颇有些亮点。
当然,有瑕疵也在所难免,但就短短半年的沉淀而言,总体值得给一个肯定。需要说明的是,大模型输出的结果存在随机性,即便是同一指令,每次生成的内容也有差异,因而不能就有限的体验去定论模型的高下。不过,国内大模型榜单SuperCLUE发布的大模型8月排行榜,倒是能体现出这些大模型的总体水平。排行榜显示,在国产大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,MiniMax的MiniMax-abab5及百度的文心一言(V2.2.3)紧随其后。
文本处理是这些大模型的主攻方向之一,其中,基于文本的创作是重头戏,其一直肩负着解放生产力的众望。此次体验重点针对写诗、起标题、构思文章、润色作文的能力进行。
其一,写诗方面,这些大模型总体表现都不错,创作的诗基本都有合理的语义和语境,而不只是词与词的无逻辑拼凑。比如,指令是“写一首诗,关键词包含江湖、菩提、相逢”时,文心一言、商量大模型、MiniMax大模型均表现不错,尤其掌握了押韵的精髓。(左:文心一言,中:商量,右:MiniMax)相对而言,百川大模型、讯飞星火、智谱清言、抖音“豆包”在押韵方面有时不够稳定。(左:讯飞星火,右:智谱清言)
其二,起标题方面,这些大模型也基本能抓住中心思想,虽然代替人的思考还不现实,但可以提供参考。比如,输入《财经故事荟》之前写的关于“短视频造假背后的流量经济及造假产业链”的段落后,文心一言、讯飞星火、智谱清言、百川大模型的结果如下:(左上:智谱清言,左下:商量,右上:讯飞星火,右下:百川)而颇让人有点惊喜的是MiniMax大模型的标题,其看起来不只是“组合”已有关键词,而是有自己的归纳,部分直接拿来用也未尝不可:《短视频造假屡禁不止:揭秘背后的利益链和传播机制》、《短视频造假乱象:“流量为王”时代的道德困境》、《短视频造假:一场博人眼球的“游戏”》、《造假短视频:平台、创作者与看客的共谋》、《短视频造假:技术与人性的扭曲》。
其三,润色文章方面,各家水平可圈可点,彼此难分上下。一方面,它们都能处理基本的错别字、标点、语法等问题,只不过处理方式有差异。比如,对于“我们自天性来说,本是娇小的,本是弱小的”的润色,文心一言会处理成“从天性来说,我们本是娇小且弱小的”,而百川、智谱清言、讯飞星火则倾向于更简洁的处理,类似于“我们天生就是渺小的,脆弱的”。但这种处理风格并不固定,比如,对于“我打小住在乡村,我十分稀爱下雨天,每次偶然对上下雨,我都很激动”的润色,文心一言的处理更简洁“我从小在乡村长大,对雨天有着深深的喜爱”;讯飞星火则是在原有表达基础上做简单修饰“我自幼生活在乡村,我非常喜爱下雨天。每当偶然遇到下雨天,我总是兴奋不已。”——可见,AI算法带有强烈的“随机性”。
其四,在构思文章方面,几家大模型的表现均有一定惊喜。比如,输入指令“分析钟薛高进军平价雪糕市场所面临的挑战”,几家大模型都关注到了“与蒙牛、伊利等品牌的竞争”、“对钟薛高品牌形象的影响”、“成本控制”的角度。尤其值得称赞的是,文心一言、抖音“豆包”还特别关注到“钟薛高将面临的销售渠道挑战”——这完全能给写稿者提供一定思路。
在解答数学题方面,《财经故事荟》抽取了10道初中数学题进行测试,结果是:文心一言、讯飞星火、商量大模型均答对5道,智谱清言答对4道,抖音“豆包”答对3道,百川大模型只答对2道。
在物理计算方面,这些大模型普遍表现欠佳。在10道涉及物理运动、质量与密度、压强、电学等不同题型的初中物理试题中,商量大模型表现较为突出,答对了4道,文心一言、百川大模型、抖音“豆包”答对2道,讯飞星火、智谱清言则只答对1道。
在6家大模型中,目前只有文心一言、讯飞星火支持作画。不过,目前这两家大模型的作画能力尚未达到理想状态,“触雷”概率不低。
如果把大模型当搜索工具用,就需要其在信息更新的及时性、全面度和准确性上达到合格水平。体验发现,在部分搜索场景下,这些大模型能提供准确信息。但在一些数据统计层面,它们表现很不理想。一方面,有些大模型缺失最新数据,或者缺少某些特定领域的数据储备。另一方面,数据的准确度也普遍欠佳。
综上,现阶段的大模型在文本创作方面基本迈过了及格线,在某些场景下还能“制造”一些惊喜感,但其也像一个偏科的学生,在数理方面普遍一般,BUG较多;作画水平更是有待优化,“雷人”概率比较大;信息检索方面还不稳定,用起来不太放心。但是,这只是起点,在未来的每一天,大模型都可能处在无止境的进化中。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16