自然语言处理(NLP)基础知识与技巧

新知榜官方账号

2023-09-17 03:38:40

简介

自然语言处理(NLP)是计算机科学、语言学和机器学习的交叉学科,致力于让计算机理解并生成人类语言。NLP技术的应用包括Alexa和Siri这样的语音助手,还有机器翻译和文本过滤等。NLP是从机器学习(尤其是深度学习技术)的最新进展中受益匪浅的领域之一。该领域分为以下三个部分:语音识别-将口语翻译成文本。自然语言理解-计算机理解我们所说内容的能力。自然语言生成-计算机生成自然语言。

为什么NLP很困难

人类语言之所以特殊是由于几个原因。它是专门用于传达说话者/作者的意思。这是一个复杂的系统,虽然小孩子可以很快学会它。关于人类语言的另一个显著之处在于它与符号有关。据ChrisManning(斯坦福大学的机器学习教授)表示,它是一个离散的、象征性的、绝对的信号系统。这意味着你可以通过使用不同的方式传达相同的含义,例如语音、手势、符号等。人类大脑的这些编码是连续的激活模式,通过声音和视觉的连续信号传递这些符号。由于其复杂性,理解人类语言被认为是一项艰巨的任务。例如,句子中单词的排列有无数种不同的可能。此外,单词可以有多种含义,正确解释句子需要有具体的语境信息。每种语言或多或少都是独特和含糊的。

语法和语义分析

语法分析,也称为语法分析或解析,是分析符合正式语法规则的自然语言的过程。语法规则适用于单词组,而不是单个单词。语法分析基本上为文本分配语义结构。例如,句子包括主语和谓语,其中主语是名词短语而谓词是动词短语。

解析

解析是指计算机对句子的正式分析,从而形成一个解析树,以视觉形式显示彼此的语法关系,可用于进一步处理和理解。在下面你可以看到句子“小偷抢劫公寓”的解析树,以及由它传达的三种不同信息类型的描述。

词干分析

词干提取是一种来自形态学和信息检索的技术,其在NLP中主要用于预处理和提高效率。但是,让我们首先看一下它实际上意味着什么:词干——“起源于或由其引起。”基本上,词干是将单词减少到单词词干的过程,但实际上它的真正含义是什么?“词干”是删除所有词缀后剩下的词的一部分。你可能会问自己,为什么我们甚至需要词干?词干是必需的,因为你会遇到实际上具有相同词干和相同含义的不同语句。

文本分割

NLP中的文本分割是将文本转换为有意义的单元的过程,这些单元可以是单词,句子,不同主题,潜在的意图等等。大多数情况下,文本被分段为其组成单词,这可能是一项艰巨的任务,具体取决于语言难易程度。

命名实体识别

命名实体识别(NER)集中于确定文本中的哪些项目(“命名实体”)可以被定位并分类为预定义的类别。这些类别的范围可以是人员名称、组织、地点、货币价值和百分比。

关系提取

关系提取采用“命名实体识别”的命名实体,并尝试识别它们之间的语义关系。常见的用例有找出谁与谁结婚,一个人为特定公司工作等等。

情绪分析

情绪分析是确定态度,例如,演讲家或作者关于一个文章,互动或事件的态度(情绪)。因此,需要理解文本以预测潜在意图是一种自然语言处理问题。情绪主要分为积极,消极和中性情绪。

深度学习和NLP

深度学习和自然语言的核心是“词义”,一个词,特别是它的意义被表示为实数的向量。因此,使用代表单词的这些向量,我们将单词放在高维空间中。深度学习还可以通过创建可以识别句子结构的语法分析器来理解句子的结构。谷歌使用这样的解析技术在他们的“McParseface”和“SyntaxNet”中。了解句子的结构后,我们可以开始尝试理解句子的意义。深度学习也擅长情绪分析。通过回归神经网络的兴起,机器翻译也取得了巨大的进步。

总结

本文介绍了自然语言处理的基础知识和技巧,包括语法和语义分析、解析、词干分析、文本分割、命名实体识别、关系提取和情绪分析。同时,也探讨了深度学习如何加速NLP。

本页网址:https://www.xinzhibang.net/article_detail-11769.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章