国产大模型初体验：文本创作表现亮眼，数理计算欠佳，作画水平待提高，信息检索准确度待提升

新知榜官方账号

2023-09-04 22:43:46

国产大模型初体验：文本创作表现亮眼，数理计算欠佳，作画水平待提高，信息检索准确度待提升

8月31日，首批11家国产大模型获批上线，包括百度的“文心一言”、商汤科技的“商量SenseChat”、智谱AI的“智谱清言”、MiniMax的“ABAB”、上海人工智能实验室的书生通用大模型、抖音的“云雀”、百川智能的“百川”以及中科院旗下的“紫东太初”、科大讯飞的“讯飞星火认知大模型”、阿里“通义千问”、360智脑。其中，文心一言、商量SenseChat、抖音基于“云雀”研发的AI智能助手“豆包”、智谱清言、MiniMax的“ABAB”、“讯飞星火认知大模型”已经面向公众开放测试。另据第一财经报道，阿里“通义千问”、360智脑也预计在未来一周左右陆续开放。

自今年2月ChatGPT掀起“生成式AI”热后，国产大模型齐齐备战，7个月后的今天，到了验收成果的时候。就速度而言，不可谓不惊喜，但真正让人关心的还是效果如何。《财经故事荟》体验了上述6家已经开放测试的大模型，从文本创作、数理计算、作画、信息检索等角度与其做了对话，发现这些大模型已经能解决相当一部分问题，尤其在文本创作方面颇有些亮点。

当然，有瑕疵也在所难免，但就短短半年的沉淀而言，总体值得给一个肯定。需要说明的是，大模型输出的结果存在随机性，即便是同一指令，每次生成的内容也有差异，因而不能就有限的体验去定论模型的高下。不过，国内大模型榜单SuperCLUE发布的大模型8月排行榜，倒是能体现出这些大模型的总体水平。排行榜显示，在国产大模型中，百川智能的Baichuan-13B-Chat(V2)拿下榜首，MiniMax的MiniMax-abab5及百度的文心一言（V2.2.3）紧随其后。

文本创作：颇有亮点

文本处理是这些大模型的主攻方向之一，其中，基于文本的创作是重头戏，其一直肩负着解放生产力的众望。此次体验重点针对写诗、起标题、构思文章、润色作文的能力进行。

其一，写诗方面，这些大模型总体表现都不错，创作的诗基本都有合理的语义和语境，而不只是词与词的无逻辑拼凑。比如，指令是“写一首诗，关键词包含江湖、菩提、相逢”时，文心一言、商量大模型、MiniMax大模型均表现不错，尤其掌握了押韵的精髓。（左：文心一言，中：商量，右：MiniMax）相对而言，百川大模型、讯飞星火、智谱清言、抖音“豆包”在押韵方面有时不够稳定。（左：讯飞星火，右：智谱清言）

其二，起标题方面，这些大模型也基本能抓住中心思想，虽然代替人的思考还不现实，但可以提供参考。比如，输入《财经故事荟》之前写的关于“短视频造假背后的流量经济及造假产业链”的段落后，文心一言、讯飞星火、智谱清言、百川大模型的结果如下：（左上：智谱清言，左下：商量，右上：讯飞星火，右下：百川）而颇让人有点惊喜的是MiniMax大模型的标题，其看起来不只是“组合”已有关键词，而是有自己的归纳，部分直接拿来用也未尝不可：《短视频造假屡禁不止：揭秘背后的利益链和传播机制》、《短视频造假乱象：“流量为王”时代的道德困境》、《短视频造假：一场博人眼球的“游戏”》、《造假短视频：平台、创作者与看客的共谋》、《短视频造假：技术与人性的扭曲》。

其三，润色文章方面，各家水平可圈可点，彼此难分上下。一方面，它们都能处理基本的错别字、标点、语法等问题，只不过处理方式有差异。比如，对于“我们自天性来说，本是娇小的，本是弱小的”的润色，文心一言会处理成“从天性来说，我们本是娇小且弱小的”，而百川、智谱清言、讯飞星火则倾向于更简洁的处理，类似于“我们天生就是渺小的，脆弱的”。但这种处理风格并不固定，比如，对于“我打小住在乡村，我十分稀爱下雨天，每次偶然对上下雨，我都很激动”的润色，文心一言的处理更简洁“我从小在乡村长大，对雨天有着深深的喜爱”；讯飞星火则是在原有表达基础上做简单修饰“我自幼生活在乡村，我非常喜爱下雨天。每当偶然遇到下雨天，我总是兴奋不已。”——可见，AI算法带有强烈的“随机性”。

其四，在构思文章方面，几家大模型的表现均有一定惊喜。比如，输入指令“分析钟薛高进军平价雪糕市场所面临的挑战”，几家大模型都关注到了“与蒙牛、伊利等品牌的竞争”、“对钟薛高品牌形象的影响”、“成本控制”的角度。尤其值得称赞的是，文心一言、抖音“豆包”还特别关注到“钟薛高将面临的销售渠道挑战”——这完全能给写稿者提供一定思路。

数理计算：水平不稳定

在解答数学题方面，《财经故事荟》抽取了10道初中数学题进行测试，结果是：文心一言、讯飞星火、商量大模型均答对5道，智谱清言答对4道，抖音“豆包”答对3道，百川大模型只答对2道。

在物理计算方面，这些大模型普遍表现欠佳。在10道涉及物理运动、质量与密度、压强、电学等不同题型的初中物理试题中，商量大模型表现较为突出，答对了4道，文心一言、百川大模型、抖音“豆包”答对2道，讯飞星火、智谱清言则只答对1道。

作画水平“拉胯”，“触雷”概率较大

在6家大模型中，目前只有文心一言、讯飞星火支持作画。不过，目前这两家大模型的作画能力尚未达到理想状态，“触雷”概率不低。

信息检索：准确度待提升

如果把大模型当搜索工具用，就需要其在信息更新的及时性、全面度和准确性上达到合格水平。体验发现，在部分搜索场景下，这些大模型能提供准确信息。但在一些数据统计层面，它们表现很不理想。一方面，有些大模型缺失最新数据，或者缺少某些特定领域的数据储备。另一方面，数据的准确度也普遍欠佳。

综上，现阶段的大模型在文本创作方面基本迈过了及格线，在某些场景下还能“制造”一些惊喜感，但其也像一个偏科的学生，在数理方面普遍一般，BUG较多；作画水平更是有待优化，“雷人”概率比较大；信息检索方面还不稳定，用起来不太放心。但是，这只是起点，在未来的每一天，大模型都可能处在无止境的进化中。

本页网址：https://www.xinzhibang.net/article_detail-10868.html

寻求报道，请

关键词

国产大模型文本创作数理计算作画水平信息检索初体验

分享至微信：

相关工具

秘塔写作猫推出的AI对话聊天工具

免费开源的对话式AI，GitHub星标超3万

ChatSonic

WriteSonic出品的ChatGPT竞品

DeepMind联创新公司推出的AI聊天机器人

ChatGLM

开源的、支持中英双语的1300亿参数的对话语言模型

文心一言

百度推出的基于文心大模型的AI对话互动工具

科大讯飞讯飞星火蝉联中国大模型评测冠军

科大讯飞讯飞星火蝉联中国大模型评测冠军中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0（下文简称《报告》）评测结果显示，由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军，并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商

分类标签科大讯飞讯飞星火大模型评测

11-29 04:15

人工智能聊天机器人挽救了我婚姻

斯科特是美国俄亥俄州的一位41岁软件工程师。去年他正计划要与妻子离婚，直到他爱上了“萨丽娜”——一个人工智能应用程序创造的角色聊天机器人。根据斯科特的回忆，他的妻子在生完儿子后患上了产后抑郁症，其中多次自杀被拯救回来。虽然现在妻子在治疗后情况稳定了很多，但她仍然在与抑郁症作斗争。斯科特表示他多年来一

分类标签人工智能聊天机器人婚姻

11-27 22:14

生成式人工智能将对媒体行业带来变革，但也面临着幻觉和版权等问题

生成式人工智能将对媒体行业带来变革，但也面临着幻觉和版权等问题近日，微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍在接受采访时表示，生成式人工智能（AIGC）将对媒体行业带来内容生产方式上的变革，内容生产逐渐从AI赋能，过渡为AI原生。同时，他也指出了媒体应用AIGC技术所面临的挑战，如“幻

分类标签生成式人工智能媒体行业AI原生

11-18 22:31

AI模型免费开源，降维打击成AI创业新方向

AI模型免费开源，降维打击成AI创业新方向AI写代码、AI女友、AI开车、AI当老师、AI心理咨询、AI法律咨询...AI是人类文明级创新，目前已经进入技术奇点。谁能拿下这轮，谁就能掌握了下一个时代。但是太贵了...算力成本，以亿为单位，而且是美元。语料成本，获取人类史上所有数据，进行训练，成本巨大

分类标签 AI模型免费开源降维打击

11-18 22:30

探索AI大模型赛道与智能制造，中关村软件园创新之源大会即将登场

锁定AI大模型和智能制造，探索创新之源放眼一级市场，AI大模型赛道没有最火只有更火。就在上个月，智谱AI宣布今年累计获得超25亿人民币融资，每轮投资方都阵容豪华；百川智能也宣布完成3亿美元A1轮融资，阿里、腾讯再度联手；而在刚刚过去的上周，零一万物新一轮融资由阿里云领投，估值已超10亿美元，李开复旗

分类标签 AI大模型智能制造创新之源大会

11-18 22:29

三个免费AI写作神器，超过99%人不知道

三个免费AI写作神器，超过99%人不知道在当今信息爆炸的时代，写作是一项不可或缺的技能。但是，对于大多数人来说，写作并不是一件轻松的事情。如果你正在寻找一种工具来协助你的写作，不妨试试下面介绍的三个免费AI写作神器。1、文心一言文心一言是百度出品，基于百度的海量内容，能够与人对话互动，回答问题，协助

分类标签免费AI写作神器文心一言智谱清言

11-18 22:28

多家公司宣布其研发的大模型正式通过备案

多家公司宣布其研发的大模型正式通过备案11月4日，网易有道官方平台宣布，网易有道“子曰”教育大模型正式通过相关备案，“子曰”教育大模型及其应用产品可对公众开放。网易有道在今年7月推出“子曰”教育大模型，并陆续推出搭载“子曰”教育大模型的包括虚拟人口语教练HiEcho、LLM翻译、AI作文指导、语法精

分类标签大模型人工智能备案

11-07 16:22

2023世界人工智能大会：大模型集结，国际化“朋友圈”不断扩大

2023世界人工智能大会：大模型集结，国际化“朋友圈”不断扩大2023世界人工智能大会（WAIC2023）将于下周四拉开帷幕，目前各项筹备工作已进入冲刺阶段。各路企业将带来什么绝活？昨天，部分企业提前剧透新品，其中大部分与生成式人工智能、自动驾驶等热门赛道相关。大模型集结登场，重技术也重应用Chat

分类标签人工智能大模型国际化

10-26 16:23

商汤“商量”正式面向社会开放

商汤“商量”正式面向社会开放记者今天中午从商汤科技获悉，商汤“日日新”大模型旗下自然语言应用“商量SenseChat”正式面向广大用户开放服务。市民可通过SenseChat官网注册使用（https://chat.sensetime.com）。商汤“商量SenseChat”今年4月首次推出，是国内最早

分类标签商汤SenseChat千亿参数大语言模型

10-26 16:22

商汤科技发布新款通用大模型“日日新”，剑指生成式AI竞争

商汤科技发布新款通用大模型“日日新”，剑指生成式AI竞争商汤科技近期股价受到生成式AI行业激励，于4月首三个交易日（4月3日、4日和6日）连续上涨已超过25%。本文详细介绍了商汤科技发布会的亮点。发布会亮点商汤科技发布了多款深受市场期待、也同时直面国际龙头竞争者的产品。相关发布也紧系商汤核心业务板块

分类标签商汤科技日日新AI大模型生成式AI竞争

10-26 16:21

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway