让模型用代码自我验证解决方案，结合多数投票集成机制，推理准确率可以提升近30%！

新知榜官方账号

2023-09-02 01:23:40

虽然大型语言模型（LLMs）在常识理解、代码生成等任务中都取得了非常大的进展，不过在数学推理任务上仍然存在很大改进空间，经常会生成无意义、不准确的内容，或是无法处理过于复杂的计算。最近推出的一些语言模型，如GPT-4,PaLM-2都在数学推理上取得了重大进步，特别是OpenAI的最新版模型GPT-4CodeInterpreter，在较困难的数学推理数据集上也展现出了很高的性能。

为了探索「代码生成任务」对「语言模型推理能力」的影响，来自香港中文大学、南京大学、中国科学技术大学、清华大学、香港城市大学、长沙理工大学和塔夫茨大学的研究人员联合发布了一篇论文，通过在代码使用频率（CodeUsageFrequency）上引入不同的约束限制进行实验验证。

实验结果显示，GPT-4CodeInterpreter模型的成功在很大程度上要归功于「在生成和执行代码、评估代码执行的输出以及在收到不合理的输出」时纠正其解决方案方面的强大能力。基于上述结论，研究人员提出了一种新颖且高效的提示方法，显式的基于代码的自我验证（CSV,code-basedself-verification），以进一步提高GPT-4代码解释器的数学推理潜力。

研究人员还发现验证结果的状态可以指示解决方案的置信度，并进一步提高多数表决的有效性。通过结合GPT-4CodeInterpreter和CSV方法，在MATH数据集上的零样本准确率实现了从54.9%到84.3%的巨大提升。为了探索代码的使用对GPT4-Code解决数学问题能力的影响，研究人员采用了一种很直接的方法，即通过精心设计的提示来限制GPT4-Code与代码的交互。

具体包括两种代码限制提示以及一种基础提示用来对比：提示1：Nocodeusageisallowed（不允许使用代码）GPT4-Code不允许在其解决方案中添加代码，也就是说模型只能完全依赖自然语言（NL）推理链，类似于思维链（CoT）框架中的解决方案，由此产生的推理步骤序列叫做CNL，如上图中（a）所示。提示2：Codecanbeusedonlyonce（代码只能使用一次）GPT4-Code只能用单个代码块内的代码来生成解决方案，类似于之前的PAL方法，论文中将此序列称为CSL，即使用符号语言（SL），如Python进行推理，上图中（b）为样例。基本提示：对代码使用没有任何限制。推理序列可表示为，其中每个步骤都由自然语言和Python代码组成，示例如上图中（c）所示。

除此之外，研究人员还引入了代码使用频率（CodeUsageFrequency）来记录不同提示下的代码执行次数，结果表明，GPT4-Code的高性能与高代码使用频率之间存在正相关。具体来说，提示2使用的代码量比提示1多了一倍，并且提示2比提示1的准确率提高了6.9%，表明Python代码链CSL比自然语言链CNL更能提高计算能力，这一观察结果与之前基于Python的提示方法结果一致。

基于代码的自验证CSV受代码使用频率分析观察结果的启发，研究人员决定利用GPT4-Code的代码生成、代码评估、代码执行，以及自动调整解决方案等能力来增强方案验证，以提高推理性能。CSV的主要流程就是对GPT-Code输入提示，来显式地通过代码生成来验证答案正确性。对解决方案C的验证结果V可以分为「真」、「假」、「不确定」三类。

与CSV结合后，模型能够使用代码来验证答案，然后在验证结果为「错误」的情况下审查并调整得出解决方案的方式，从而获得正确答案。在完善和修正初始解决方案后，准确率可以得到显著提高。值得注意的是，验证（verification）和修正（rectification）阶段都是基于代码的，所以必然会导致代码使用频率的增加。在GPT4-Code出现之前，先前的框架大多依赖于外部LLM使用自然语言进行验证和精心设计的少样本提示。相比之下，CSV方法仅依赖于GPT4-Code的直接提示，以零样本的方式简化了流程，利用其先进的代码执行机制来自主验证和独立修正解决方案。

研究人员还将验证阶段集成到了加权多数表决（majorityvoting）中，为验证过程的各个状态分配了不同的权重。为了防止答案被确认为「假」后不再进行其他验证，研究人员将三种状态分配了不同的权重：wT,wF和wU，可以增加系统的可靠性。为了简单起见，集成算法从k个解决方案中提取一对最终答案及其相应的验证结果，表示为其中v和a分别代表第i个最终答案和最终验证结果。因此，每个候选答案a的投票得分可以表示为：最后从所有候选答案中选出得分最高的答案：

实验结果MATH数据集GPT4-Code在MATH基准上的准确率达到了69.69%，大大超过了之前的方法（53.90%），表明GPT4-Code在解决数学问题方面表现出很强的能力。在GPT4-Code的基础上，文中提出的CSV方法进一步提高了准确性，将准确率提高到了73.54%；在加入基于代码的显式自我验证和验证引导的加权多数投票（采样路径数为16）后，结果进一步提高到了84.32%需要注意的是，虽然增加基于代码的自我验证可以提高题目的成绩，但具体程度因题目难度、形式而异。其他数据集研究人员还在其他推理数据集上应用了CSV方法，包括GSM8K、MMLU-Math和MMLU-STEM从结果上来看，CSV+GPT4-Code在各个数据集上都取得了最优的结果。

本页网址：https://www.xinzhibang.net/article_detail-10748.html

寻求报道，请

关键词

语言模型数学推理 GPT-4 代码生成自我验证

分享至微信：

相关工具

Jenni

AI研究文章和博客写作辅助工具

Spell.tools

高颜值AI内容营销创作工具

彩云小梦

彩云科技推出的智能AI故事写作工具

ChatAI

AI内容创作工具

5118 SEO优化精灵

一键式生成高质量SEO文章，提高搜索引擎排名获得更多流量

悉语

阿里旗下智能文案工具，一键生成电商营销文案

三个国外专业免费的调色网站

三个国外专业免费的调色网站无论制作视频、编辑图片，合适的色彩会让你的作品增加视觉冲击力，所以专业的调色技术价值非凡，一部电影或一部好的视频、图片海报，专业调色耗费少则上万，多则上百万，只是大家对专业调色这个行业知之甚少，今天网玩君就为大家分享三个国外专业免费的调色网站，记得收藏好，以后编辑视频、图片

分类标签调色网站免费

04-18 16:42

电影制作中的纹理技术

纹理在电影制作中的重要性纹理是指将详细的表面特征应用于3D模型或视觉效果元素，使其看起来更逼真。纹理对于创建视觉上引人入胜且可信的电影场景至关重要，尤其是涉及CGI、动画或特效的场景。纹理还支持叙事和讲故事，可以通过纹理设置年龄大小等属性，为故事奠定基础。纹理技术的发展历程自胶片问世以来，电影制作人

分类标签纹理电影制作CGI视觉效果微缩模型UV映射

04-18 16:42

UnrealSynth虚幻合成数据生成器-NSDT

UnrealSynth虚幻合成数据生成器-NSDTUnrealSynth基于UE5虚幻引擎开发，可用于生成合成数据集，包括图像和标注数据。可用于各种行业细分场景中目标识别任务的实施效率提高。UnrealSynth合成数据工具包内容UnrealSynth基于UE5虚幻引擎开发，目前支持YOLO系列模型

分类标签 UnrealSynth虚幻引擎数据合成YOLO模型深度学习训练数据

04-18 16:42

人工智能与音乐：谷歌的Project Magenta

谷歌的Project Magenta利用人工智能技术生成音乐和其他艺术形式，如素描、视频和笑话。该项目的目标是为人们创造新的交流方式。本文介绍了该项目的背景、发展历程和应用。在上世纪90年代中期，谷歌研究院的Douglas Eck就开始了他的人生目标：融合人工智能与音乐。二十年后，他与一支谷歌研究团

分类标签人工智能音乐谷歌

04-18 16:42

如何做好SEO优化？

如何做好SEO优化？想要做好SEO优化，得从站内优化和站外优化两个方面入手。一、站内优化1.关键词定位和分析关键词整理是SEO优化中的核心工作，一旦定下来就不建议再次去更改。站长始终要记住关键词一定要和行业、产品、领域息息相关，同时还可以参考竞争对手所做的关键词，可以利用站长工具、5118、爱站网、

分类标签 SEO优化关键词定位网站架构布局

12-11 08:19

万兴科技：营收实现稳健增长，拥抱AIGC新机遇

万兴科技：营收实现稳健增长，拥抱AIGC新机遇国元证券股份有限公司耿军军近期对万兴科技进行研究并发布了研究报告《2022年年度报告点评：营收实现稳健增长，拥抱AIGC新机遇》，本报告对万兴科技给出买入评级，当前股价为75.24元。万兴科技(300624)事件：公司于2023年4月7日收盘后发布《20

分类标签万兴科技营收增长AIGC

12-11 02:11

AI分身市场潜力巨大，万兴科技、京东等已率先布局

“AI孙燕姿”和“CarynAI”引爆市场最近，“AI孙燕姿”和“CarynAI”以以假乱真的程度引爆市场，都是通过采集本人的语音、文字、图像等素材，并通过开源的生成式训练模型进行训练而成。其中，“CarynAI”成功地借助AI技术，打造了自己的AI分身，通过付费的方式，跟AI版的自己进行交往，预计

分类标签 AI孙燕姿CarynAIAI分身AIGC技术虚拟主播数字人

12-11 02:10

万兴科技推出名师必备讲演神器“万兴智演”

万兴科技推出名师必备讲演神器“万兴智演”9月8日，万兴科技面向泛知识领域，推出名师必备讲演神器“万兴智演”。该款AI演示新品集成强大的AIGC能力、精美的行业课程模板以及动画特效素材，大大简化课件制作过程。同时，产品内置强大的录制、直播功能，通过真人实拍与演示内容相结合的形式，实现人景融合的实时演示

分类标签万兴科技万兴智演AI演示

12-11 02:09

万兴科技创始人吴太兵在2023互联网岳麓峰会上的主题演讲

万兴科技创始人吴太兵在2023互联网岳麓峰会上的主题演讲2023互联网岳麓峰会论坛上，万兴科技创始人、董事长兼总裁吴太兵进行主题演讲。红网时刻新闻记者郭雅倩甘红长沙报道十届、十年，岳麓峰会从2014年的“湖湘汇”到如今云集万人的盛会，积攒了巨大的关注度和影响力。6月19日，2023互联网岳麓峰会在长

分类标签万兴科技吴太兵岳麓峰会

12-11 02:05

樟宜机场：通过科技改变旅客体验

樟宜机场：通过科技改变旅客体验樟宜机场在智能手机上移动的小红点代表了在机场上空飞行的飞机，通过传感器的追踪获取了相关飞行轨迹。机场通过人工智能、面部识别和数据分析等技术的应用，不断提高机场运营效率，保持创新，致力于成为一个旅客体验更佳、充满活力的目的地。人工智能优化机场运营效率樟宜机场在2017年共

分类标签樟宜机场科技旅客体验

12-10 22:16