清华大学等提出能够完美执行复杂算术运算的MathGLM模型

新知榜官方账号

2023-09-20 01:22:28

引言

当前,大型语言模型(LLM)在处理NLP领域的各种下游任务方面已经表现出卓越的能力。特别是,GPT-4、ChatGPT等开创性模型已经接受了大量文本数据的训练,使它们具备强大的文本理解和生成能力,能够生成连贯且上下文相关的响应,在各种NLP任务中具有高度通用性。然而,LLM在数学推理方面的性能却不尽如人意。LLM很难准确地执行复杂的算术运算,尤其是涉及超过8位数字乘法的运算,还有涉及小数、分数的运算。

基于此,来自清华大学、TALAILab和智谱AI的研究者联合提出了一个能够完美执行复杂算术运算的新模型——MathGLM。

MathGLM模型介绍

MathGLM模型需要完成基本算术运算和复杂混合运算两类算术任务。为了增强MathGLM的算术能力,采用了基于Transformer的仅解码器架构,并使用自回归目标在生成的算术数据集上从头开始训练它。算术训练数据集是精心设计的,包括加法、减法、乘法、除法和求幂等多种运算。此外,它还包含多种数字格式,例如整数、小数、百分比、分数和负数。数据集规模大小不一,范围从100万到5000万条记录不等。

实验结果

对于算术任务,MathGLM优于所有其他模型,表明MathGLM在处理算术任务方面具有卓越的性能。即使只有1000万个参数的MathGLM-10M,结果也令人惊讶。MathGLM-10M在一系列综合算术任务中的性能优于GPT-4和ChatGPT。

对于数学应用问题,MathGLM在答案准确性方面达到了与最先进的GPT-4模型相当的性能水平。此外,将MathGLM的性能与GLM-Large、GLM-6B和GLM-10B进行比较时,出现了一个明显的趋势:MathGLM在算术准确性和答案准确性方面都表现出显著增强。

本页网址:https://www.xinzhibang.net/article_detail-12493.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯