新知榜官方账号
2023-12-07 16:03:22
UCSD的研究人员通过设计图灵测试,检验了包括GPT-4、GPT-3.5、ELIZA以及人类参与者在内多个AI系统与人类的区别能力。结果发现,60年前基于规则的老AI系统ELIZA的表现不但超过GPT系列模型,还达到了27%的成功率,仅次于人类参与者的63%成功率。这一结果颠覆了我们对新型AI模型智能水平的传统认知,同时也突显出了图灵测试本身存在的问题。
当下,就该如何看待这个惊世结果,图灵测试作为AI测评方法是否还可靠,业内各方观点不一。我们不妨先回顾这次测试的全过程,看看背后都发生了什么。整个测试采用了类似即时通讯软件的界面,由人类审问员与AI系统或其他人类见证者随机匹配。交流结束后,审问员需要判断见证者的身份,并给出信心度评分。
研究人员测试了GPT-4等多种模型,采用不同的提示词,让AI系统学习特定的回复方式。而老AI系统ELIZA沿用了1966年的规则和模板。结果显示,尽管经过专门训练,GPT-4的最高成功率也只有41%,略高于部分GPT-3.5模型的14%。而ELIZA的成功率高达27%,不但超过所有GPT-3.5模型,还超过了几个GPT-4提示词版本。更令人惊讶的是,就算身为人类,参与测试的人类见证者也只达到了63%的成功率。这一结果和之前研究者对人类识别自身的预期成功率有很大的差距。无独有偶,今年5月一项类似的图灵测试显示,人类正确识别其他人类的概率约为73%。也就是说,即使是人对人的交流,判断错误的概率也高达30%。
这些令人震惊的结果无疑让图灵测试的魅力大不如前。业界也出现了分歧。针对此,OpenAI研究员Emily表示,ELIZA之所以会表现好于GPT,是因为它使用了简单的模式匹配,没有明显暴露AI的特征,而GPT模型始终有可能露出马脚。所以这次测试并不能看做对GPT-4实力的质疑。但有专家则指出,这正凸显出图灵测试本身的局限性。因为参与者的判断很大程度上取决于主观看法,所以测试结果并不能完全反映出AI和人类智能的差距。
无论如何看待这次结果,一个事实已经很明确:图灵测试未必是一个公正且有效的AI评定方法。一位业内评论人士甚至表示,这可能是图灵测试魅力彻底消减的转折点。未来,人们或许会逐渐放弃图灵测试,转而通过其他方式测试AI系统,如让AI解释自己的思路,检查生成内容的逻辑性等。这样或许能更加直接地评估AI的真实水准。当然,业界主流声音仍然是保守且开放的。除继续探索AI评测新方法外,也有建议继续保留图灵测试,只是不再赋予其终极智能鉴定的地位。
无论前景如何,这次测试为业界提供了宝贵经验。对开发者而言,有必要反思如何让AI系统更贴近真实世界,提高情境意识。因为许多参与者就是通过询问时间地点等情况来识别AI的。对业界决策者而言,则需审视图灵测试的地位,不妨适当结合其他测试方式,从多角度评估AI系统,防止出现类似的“骗局”。当然,读者们也不妨反思,这次结果中人类表现并不尽如人意,你我日常生活中判断他人身份的准确度又会高到哪里?这是否预示着,未来AI进一步模拟人类行为的可能性?不管怎样,这次测试为大众提供了另一角度审视人机鸿沟,也为AI评测提供了借鉴。你认为业界会如何看待和应对这一结果?AI通过图灵测试之日还会远吗?欢迎在评论区畅所欲言。
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28