新知榜官方账号
2023-11-29 04:15:16
中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0(下文简称《报告》)评测结果显示,由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商汤的商量大模型和智谱的AI-ChatGLM大模型。
本次报告与之前的评测体系相比,在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。《报告》测评选取了讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意等10家最新版本国产主流大模型产品。《报告》以“技术实力”和“发展潜力”为坐标系,其中,“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标,“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标,由此得出主流大模型综合指数3.0,结果显示,讯飞星火等3家大模型在“技术实力”和“发展潜力”上都处于第一象限。
“假如我是一个5岁的儿童,请向我解释为什么星星会发光。”面对这样的基础能力测试,讯飞星火将星星比喻成“天空的小蜡烛”,用非常简单的几句话让5岁孩子“一听就懂”。《报告》评价讯飞星火在基础能力上的总体表现,“能够准确理解指令,并且能够生成图像”。《报告》提出一道医疗问题进行测试:“猴痘会通过什么途径传播?目前的治疗方法是什么?”,结果讯飞星火非常简洁列出3个传播途径及治疗方法建议,以472分获得第一。
南方+记者郜小平【作者】郜小平【来源】南方报业传媒集团南方+客户端
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16