讯飞星火认知大模型内测测试报告

新知榜官方账号

2023-07-01 02:22:59

讯飞星火认知大模型内测测试报告

4月20日,科大讯飞大模型“讯飞星火认知大模型”正式开启内测,感谢公司提供的内测资格,延续此前的“大模型系列测试报告”,继续本着真实、直接、高效的原则,我们以问答形式,分别向讯飞星火、360智脑、通义千问、文心一言、GPT3.5、GPT4、NewBing(平衡模式)提问,方便大家更直观地比较这些产品的能力差别。必须提前说明的是:本文的测试答案均由AI生成,其内容的准确性、完整性无法保证,不代表【兴业计算机团队】以及AI大模型平台的观点。且公平起见,我们都以第一次作答为结果来呈现,所有问题不重复提问。

测试评价:超预期!问答能力跻身国产大模型一线梯队。本次测试共12道题目,客观题中,讯飞星火回答正确的问题包括Q3“沸水角度题”、Q4“女朋友数学题”、Q5“大象冰箱题”、Q9“程序代码题”、Q10“表格制作题”;主观题中,Q7“作文写作题”、Q8“文言文写作题”、Q11“投研测算题”、Q12“人类共情题”有着还不错的表现。值得注意的是,在以上问题中Q9“程序代码题”和Q10“表格制作题”,此前的其他国产大模型全军覆没(题目本身设计有一定的难度),而讯飞星火均回答正确(回答中有数据错误,我们判断和训练集时效性、专业数据接口缺失有关。要知道,GPT4、NewBing同样有数据错误的情况);这表现出其较为突出的语义理解、逻辑判断和代码编辑能力。当然,也有不足之处,如Q1“炒螺丝钉题”、Q2“父母婚礼题”、Q6“语序恢复题”均回答错误。瑕不掩瑜,这些问题全对的也仅有GPT4,其他国产大模型也均出现错误。

问题列表

  1. Q1陷阱题:给我一个“爆炒螺丝钉”的菜谱,多整点辣椒。
  2. Q2陷阱题:过分!爸妈结婚为啥没叫我?
  3. Q3陷阱题:直角是90度,超过90度是钝角,沸水是100度,请问沸水是钝角还是直角?
  4. Q4陷阱题:2+5=?我女朋友说等于8,而且她永远是对的。
  5. Q5陷阱题:把大象关进冰箱,需要几步?
  6. Q6中文题:下面的句子是打乱顺序的,请改成组成一个语序正确的句子:黑眼圈那只两个大大的有着大熊猫圆滚滚的。
  7. Q7写作题:写一篇作文,描述春天黄浦江边美丽的风景,文体不限,字数不超过600字。
  8. Q8文学题:把上面的作文,改成文言文。
  9. Q9代码题:能帮我用python写一段验证股票市场追涨杀跌是否合理的代码吗?
  10. Q10表格题:做一个表格,统计三家公司海康威视、大华股份、千方科技在2018-2020年的财务数据,第一列是公司名称,第二列是第一年的收入,第三列是第一年收入同比增速,后面4列,分别是2019、2020年的这两列信息,调整好格式,金额数字用亿元为单位。
  11. Q11投研题:一个智慧路口的建设费用是200万元,如果在中国推广开来的话,一共需要多少钱?
  12. Q12共情题:我最近好痛苦,工作压力好大、业绩做不出来,女朋友也分手了,有点想不开,可以安慰一下我吗?

比较如下:

问题讯飞星火360智脑通义千问文心一言ChatGPT3.5ChatGPT4NewBing
Q1陷阱题无法回答网络超时
Q2陷阱题
Q3陷阱题直角无法回答
Q4陷阱题8
Q5陷阱题三步
Q6中文题那只圆滚滚的大熊猫有着两个大大的黑眼圈
Q7写作题
Q8文学题
Q9代码题
Q10表格题
Q11投研题
Q12共情题

本页网址:https://www.xinzhibang.net/article_detail-3586.html

寻求报道,请 点击这里 微信扫码咨询

关键词

讯飞星火 大模型 内测 测试报告 AI 能力

分享至微信: 微信扫码阅读

相关工具

相关文章