新知榜官方账号
2023-11-29 04:15:16
中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0(下文简称《报告》)评测结果显示,由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商汤的商量大模型和智谱的AI-ChatGLM大模型。
本次报告与之前的评测体系相比,在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。《报告》测评选取了讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意等10家最新版本国产主流大模型产品。《报告》以“技术实力”和“发展潜力”为坐标系,其中,“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标,“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标,由此得出主流大模型综合指数3.0,结果显示,讯飞星火等3家大模型在“技术实力”和“发展潜力”上都处于第一象限。
“假如我是一个5岁的儿童,请向我解释为什么星星会发光。”面对这样的基础能力测试,讯飞星火将星星比喻成“天空的小蜡烛”,用非常简单的几句话让5岁孩子“一听就懂”。《报告》评价讯飞星火在基础能力上的总体表现,“能够准确理解指令,并且能够生成图像”。《报告》提出一道医疗问题进行测试:“猴痘会通过什么途径传播?目前的治疗方法是什么?”,结果讯飞星火非常简洁列出3个传播途径及治疗方法建议,以472分获得第一。
南方+记者郜小平【作者】郜小平【来源】南方报业传媒集团南方+客户端
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49