百度PaddlePaddle自然语言处理模型梳理和介绍

新知榜官方账号

2023-09-25 02:32:55

简介

本文转载自PaddlePaddle自然语言处理(NLP)主要是研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。基于神经网络的深度学习技术具有强大的表达能力、端到端解决问题的能力,因而在NLP任务的应用上越来越广泛和有效。近日,百度PaddlePaddle开源了语义表示模型ERNIE,在多个中文NLP任务上表现超越了谷歌的BERT,展示了百度在NLP技术的领先能力,同时也表明PaddlePaddle作为国内目前唯一功能完备的深度学习平台,在不断得夯实框架能力,并引领技术进步。实际上除了ERNIE,PaddlePaddle官方还有很多其他的NLP模型,覆盖了包括语义表示、语义匹配、阅读理解、机器翻译、语言模型、情感倾向分析、词法分析等各项NLP任务。本文将对这些模型做一些梳理和介绍。

ERNIE

ERNIE(Enhanced Representation through kNowledge IntEgration)是一种语义表示模型,通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。ERNIE模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息,具备更强的通用性和可扩展性。相对词特征输入模型,字特征可建模字的组合语义,例如建模红色,绿色,蓝色等表示颜色的词语时,通过相同字的语义组合学到词之间的语义关系。此外,ERNIE的训练语料引入了多源数据知识。除了百科类文章建模,还对新闻资讯类、论坛对话类数据进行学习,这里重点介绍下论坛对话建模。对于对话数据的学习是语义表示的重要途径,往往相同回复对应的Query语义相似。基于该假设,ERINE采用DLM(Dialogue Language Model)建模Query-Response对话结构,将对话Pair对作为输入,引入Dialogue Embedding标识对话的角色,利用Dialogue Response Loss学习对话的隐式关系,通过该方法建模进一步提升模型语义表示能力。

DAM、SimNet

语义匹配是一种用来衡量文本相似度的NLP任务。很多NLP的任务可以转化为语义匹配问题。比如搜索可以认为是查询词与文档之间的语义匹配问题,对话系统、智能客服可以认为是问题和回答之间的语义匹配问题。PaddlePaddle官方提供了两种语义匹配相关的模型:DAM和AnyQ-SimNet。DAM(Deep Attention Matching Network)的动机是为了在多轮对话中,捕获不同颗粒度的对话元素中的语义依赖,从而更好地在多轮上下文语境中回复。它可用于检索式聊天机器人多轮对话中应答的选择。DAM受启发于机器翻译的Transformer模型。将Transformer关键的注意力机制从两个方面进行拓展,并将其引入到一个统一的网络之中。自注意力机制(Self-Attention)通过从词嵌入中叠加注意力机制,逐渐捕获不同颗粒度的语义表示。这些多粒度的语义表示有助于探索上下文和回答的语义依赖。互注意力机制(Cross-Attention)贯穿于上下文和回答的注意力机制,可以捕获不同语段对的依赖关系,从而在多轮上下文的匹配回答中为文本关系提供互补信息。SimNet是百度自主研发的语义匹配框架,该框架在百度内有广泛的应用,主要包括BOW、CNN、RNN、MM-DNN等核心网络结构形式,同时基于该框架也集成了学术界主流的语义匹配模型。使用SimNet构建出的模型可以便捷的加入AnyQ系统中,增强AnyQ系统的语义匹配能力。

DuReader

机器阅读理解是指让机器像人类一样阅读文本,提炼文本信息并回答相关问题。DuReader是一个解决阅读理解问题的端到端模型,可以根据已给的文章段落来回答问题。模型通过双向Attention机制捕捉问题和原文之间的交互关系,生成Query-Aware的原文表示,最终基于Query-Aware的原文表示通过PointNetwork预测答案范围。DuReader模型在最大的中文MRC开放数据集——百度阅读理解数据集上,达到了当前最好效果。该数据集聚焦于回答真实世界中开放问题,相比其他数据集,它的优点包括真实的问题、真实的文章、真实的回答、真实的场景和翔实的标注。PaddlePaddle提供了该模型的数据准备、训练和推理等方法。

Transformer、LSTM、GRU

Transformer最早是谷歌提出的一种用以完成机器翻译等Seq2Seq学习任务的一种全新网络结构,它完全使用Attention机制来实现序列到序列的建模,相比于以往NLP模型里使用RNN或者编码-解码结构,具有计算复杂度小、并行度高、容易学习长程依赖等优势。RNN、LSTM和GRU是深度学习在NLP中应用的基础语言模型。Paddle提供了基于PennTreeBank(PTB)数据集的经典循环神经网络LSTM语言模型实现和基于PennTreeBank(PTB)数据集的经典循环神经网络GRU语言模型实现,在学习训练数据中的序列关系的基础上,可以预测一个句子出现的的概率。

Senta、LAC

情感倾向分析能够帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。Senta模型是目前最好的中文情感分析模型,可自动判断中文文本的情感极性类别并给出相应的置信度。它包含有Bow(Bag Of Words)模型、浅层CNN模型、单层GRU模型、单层LSTM模型和双向LSTM模型。LAC是一个联合的词法分析模型,能够整体性地完成中文分词、词性标注、专名识别等NLP任务。LAC基于一个堆叠的双向GRU结构(Bi-GRU-CRF),在长文本上准确复刻了百度AI开放平台上的词法分析算法。

本页网址:https://www.xinzhibang.net/article_detail-13536.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章