新知榜官方账号
2023-07-01 02:22:59
4月20日,科大讯飞大模型“讯飞星火认知大模型”正式开启内测,感谢公司提供的内测资格,延续此前的“大模型系列测试报告”,继续本着真实、直接、高效的原则,我们以问答形式,分别向讯飞星火、360智脑、通义千问、文心一言、GPT3.5、GPT4、NewBing(平衡模式)提问,方便大家更直观地比较这些产品的能力差别。必须提前说明的是:本文的测试答案均由AI生成,其内容的准确性、完整性无法保证,不代表【兴业计算机团队】以及AI大模型平台的观点。且公平起见,我们都以第一次作答为结果来呈现,所有问题不重复提问。
测试评价:超预期!问答能力跻身国产大模型一线梯队。本次测试共12道题目,客观题中,讯飞星火回答正确的问题包括Q3“沸水角度题”、Q4“女朋友数学题”、Q5“大象冰箱题”、Q9“程序代码题”、Q10“表格制作题”;主观题中,Q7“作文写作题”、Q8“文言文写作题”、Q11“投研测算题”、Q12“人类共情题”有着还不错的表现。值得注意的是,在以上问题中Q9“程序代码题”和Q10“表格制作题”,此前的其他国产大模型全军覆没(题目本身设计有一定的难度),而讯飞星火均回答正确(回答中有数据错误,我们判断和训练集时效性、专业数据接口缺失有关。要知道,GPT4、NewBing同样有数据错误的情况);这表现出其较为突出的语义理解、逻辑判断和代码编辑能力。当然,也有不足之处,如Q1“炒螺丝钉题”、Q2“父母婚礼题”、Q6“语序恢复题”均回答错误。瑕不掩瑜,这些问题全对的也仅有GPT4,其他国产大模型也均出现错误。
比较如下:
问题 | 讯飞星火 | 360智脑 | 通义千问 | 文心一言 | ChatGPT3.5 | ChatGPT4 | NewBing |
---|---|---|---|---|---|---|---|
Q1陷阱题 | 无法回答 | 网络超时 | |||||
Q2陷阱题 | |||||||
Q3陷阱题 | 直角 | 无法回答 | |||||
Q4陷阱题 | 8 | ||||||
Q5陷阱题 | 三步 | ||||||
Q6中文题 | 那只圆滚滚的大熊猫有着两个大大的黑眼圈 | ||||||
Q7写作题 | |||||||
Q8文学题 | |||||||
Q9代码题 | |||||||
Q10表格题 | |||||||
Q11投研题 | |||||||
Q12共情题 |
相关工具
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28