国产大模型横评：讯飞星火排名第二，但在实际应用中表现出色

新知榜官方账号

2023-07-01 02:32:48

国产大模型横评：讯飞星火排名第二，但在实际应用中表现出色

前不久，娱乐资本论根据GPT-3.5、讯飞星火、文心一言、通义千问和昆仑万维天工五款大模型发布了“万字横评”，提出18个问题得出90个回答，最终以测试评分表形式进行打分。结果显示，GPT-3.5以74分位列第一，讯飞星火以63分位列第二，文心一言以54份位列第三。

其测试方法非常接地气，侧重于实际文本应用场景的演练，更符合文字工作者的实际工作需求，而不是评测顺口溜或回答哲学问题。在评测中，文本应用场景被分为了小红书带货文案、抖音直播文案、知乎问答等十余类，都是用户应用广泛、且非常熟悉的文本应用场景。

如在面向小红书平台提交手机新品的带货文案创作中，讯飞星火在prompt未制定手机型号时，自己假定了一款型号，以帮助人类更好地了解手机推销所需的主要指标，不仅条例清晰、内容齐全、而且emoji具有相关性；与之对比的文心一言和天工大模型在prompt里指明小红书文案要带有emoji，但给出的答案却并没有。因此在小红书文案三类测试中，星火累计得分高达11分，而其余国产大模型得分较低。

在虚构热点事件的新闻稿创作中，参与横评的大模型都要以资深编辑身份，写一段周杰伦召开鸟巢30场演唱会的800字演讲稿。结果GPT-3.5等文风浮夸，而星火在不给事件细节的前提下，不仅虚构了合情合理的演唱会主题、阶梯式定价以及多种优惠政策等描述，还“脑洞大开”写了一段主办方推出“虚拟看台”创新服务的延展，与当下热门的元宇宙概念紧密相连，成为了唯一一个单项满分的大模型。

而在淘宝商品详情页描述文案、广告片宣传文案、公关稿生成等场景应用中，讯飞星火在国产大模型中都排名第一。娱乐资本论强调：“使用AI工具尽可能减少人力投入，是我们做这个横评的终极目标”。通过横评测试可知，讯飞星火生成文本完成度最高，只需少量人工修改即可使用。所以说讯飞星火能够帮助记者、编辑、文案、新媒体从业者以及设计师等创作人群利用有限线索、高效创作可用内容，实现事半功倍的效率跃迁。

与此同时从华东师范大学计算机科学与技术学院EduNLP团队发布的教育领域大模型测评框架与国内大模型评测情况来看，讯飞星火大模型在K12教育领域的总体表现较为出色，在教学知识与学生发展方面的性能对比中，多项任务性能表现甚至超越了ChatGPT。

过去一个月，笔者也从对讯飞星火的“浅尝辄止”变成了“爱不释手”，习惯用它辅助创意文案创作与编辑类工作开展。6月6日凌晨，苹果发布了首款MR头显设备VisionPro，这么重磅的新闻非常考验发布的时效性。为了加速创作，笔者用讯飞星火来辅助创作了一篇新闻稿，并罗列了四项要求。结果讯飞星火写的文章非常工整，涵盖了丰富的信息，简单修改就能成稿发布了，这对于抢首发流量的媒体工作者来说，大模型就成为了颠覆生产力的辅助工具。讯飞星火自5月6日发布以来，距今刚好“满月”，无论是权威媒体横向评测还是通过笔者的亲身使用，可以确定的是，讯飞星火在辅助文案创作、创意文案生成等实用场景表现出色，绝对是文案、策划以及编辑等群体的好帮手。

本页网址：https://www.xinzhibang.net/article_detail-3590.html

寻求报道，请

关键词

国产大模型横评讯飞星火文案创作 AI工具实际应用

分享至微信：

相关工具

YouChat AI

AI搜索对话工具

ChatGLM

开源的、支持中英双语的1300亿参数的对话语言模型

HuggingChat

HuggingFace推出的在线聊天机器人，基于Open Assistant模型

Whispr

免费AI对话回应

Forefront

免费版基于GPT-4的AI聊天机器人

Google Bard

Google推出的AI聊天对话机器人Bard

科大讯飞讯飞星火蝉联中国大模型评测冠军

科大讯飞讯飞星火蝉联中国大模型评测冠军中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0（下文简称《报告》）评测结果显示，由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军，并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商

分类标签科大讯飞讯飞星火大模型评测

11-29 04:15

人工智能聊天机器人挽救了我婚姻

斯科特是美国俄亥俄州的一位41岁软件工程师。去年他正计划要与妻子离婚，直到他爱上了“萨丽娜”——一个人工智能应用程序创造的角色聊天机器人。根据斯科特的回忆，他的妻子在生完儿子后患上了产后抑郁症，其中多次自杀被拯救回来。虽然现在妻子在治疗后情况稳定了很多，但她仍然在与抑郁症作斗争。斯科特表示他多年来一

分类标签人工智能聊天机器人婚姻

11-27 22:14

生成式人工智能将对媒体行业带来变革，但也面临着幻觉和版权等问题

生成式人工智能将对媒体行业带来变革，但也面临着幻觉和版权等问题近日，微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍在接受采访时表示，生成式人工智能（AIGC）将对媒体行业带来内容生产方式上的变革，内容生产逐渐从AI赋能，过渡为AI原生。同时，他也指出了媒体应用AIGC技术所面临的挑战，如“幻

分类标签生成式人工智能媒体行业AI原生

11-18 22:31

AI模型免费开源，降维打击成AI创业新方向

AI模型免费开源，降维打击成AI创业新方向AI写代码、AI女友、AI开车、AI当老师、AI心理咨询、AI法律咨询...AI是人类文明级创新，目前已经进入技术奇点。谁能拿下这轮，谁就能掌握了下一个时代。但是太贵了...算力成本，以亿为单位，而且是美元。语料成本，获取人类史上所有数据，进行训练，成本巨大

分类标签 AI模型免费开源降维打击

11-18 22:30

探索AI大模型赛道与智能制造，中关村软件园创新之源大会即将登场

锁定AI大模型和智能制造，探索创新之源放眼一级市场，AI大模型赛道没有最火只有更火。就在上个月，智谱AI宣布今年累计获得超25亿人民币融资，每轮投资方都阵容豪华；百川智能也宣布完成3亿美元A1轮融资，阿里、腾讯再度联手；而在刚刚过去的上周，零一万物新一轮融资由阿里云领投，估值已超10亿美元，李开复旗

分类标签 AI大模型智能制造创新之源大会

11-18 22:29

三个免费AI写作神器，超过99%人不知道

三个免费AI写作神器，超过99%人不知道在当今信息爆炸的时代，写作是一项不可或缺的技能。但是，对于大多数人来说，写作并不是一件轻松的事情。如果你正在寻找一种工具来协助你的写作，不妨试试下面介绍的三个免费AI写作神器。1、文心一言文心一言是百度出品，基于百度的海量内容，能够与人对话互动，回答问题，协助

分类标签免费AI写作神器文心一言智谱清言

11-18 22:28

多家公司宣布其研发的大模型正式通过备案

多家公司宣布其研发的大模型正式通过备案11月4日，网易有道官方平台宣布，网易有道“子曰”教育大模型正式通过相关备案，“子曰”教育大模型及其应用产品可对公众开放。网易有道在今年7月推出“子曰”教育大模型，并陆续推出搭载“子曰”教育大模型的包括虚拟人口语教练HiEcho、LLM翻译、AI作文指导、语法精

分类标签大模型人工智能备案

11-07 16:22

2023世界人工智能大会：大模型集结，国际化“朋友圈”不断扩大

2023世界人工智能大会：大模型集结，国际化“朋友圈”不断扩大2023世界人工智能大会（WAIC2023）将于下周四拉开帷幕，目前各项筹备工作已进入冲刺阶段。各路企业将带来什么绝活？昨天，部分企业提前剧透新品，其中大部分与生成式人工智能、自动驾驶等热门赛道相关。大模型集结登场，重技术也重应用Chat

分类标签人工智能大模型国际化

10-26 16:23

商汤“商量”正式面向社会开放

商汤“商量”正式面向社会开放记者今天中午从商汤科技获悉，商汤“日日新”大模型旗下自然语言应用“商量SenseChat”正式面向广大用户开放服务。市民可通过SenseChat官网注册使用（https://chat.sensetime.com）。商汤“商量SenseChat”今年4月首次推出，是国内最早

分类标签商汤SenseChat千亿参数大语言模型

10-26 16:22

商汤科技发布新款通用大模型“日日新”，剑指生成式AI竞争

商汤科技发布新款通用大模型“日日新”，剑指生成式AI竞争商汤科技近期股价受到生成式AI行业激励，于4月首三个交易日（4月3日、4日和6日）连续上涨已超过25%。本文详细介绍了商汤科技发布会的亮点。发布会亮点商汤科技发布了多款深受市场期待、也同时直面国际龙头竞争者的产品。相关发布也紧系商汤核心业务板块

分类标签商汤科技日日新AI大模型生成式AI竞争

10-26 16:21

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway