Bootstrap

自然语言处理入门个人笔记

1.自然语言处理基本概念

  1. 自然语言处理(Natural Language Processing, NLP)是一门融合了计算机科学、人工智能以及语言学的交叉学科。如图所示。
  2. 自然语言处理这门学科的终极目标——理解人类语言或人工智能。

2.自然语言与编程语言的关联 

  1. 词汇量 
    自然语言中的词汇比编程语言中的关键词丰富。在编程语言中,能使用的关键字数量有限且确定。C语言中一共有32个关键字,Java语言中则有50个。但在自然语言中,可以使用的词汇量是无穷无尽的,几乎灭有意义完全相同的词语。
  2. 结构化
    自然语言是非结构化的,编程语言是结构化的。

    结构化指的是信息具有明确的结构关系,可以通过明确的机制来读写 。编程语言通过极少的词汇量 + 极强的结构化实现了各式各样的程序代码。自然语言通过极多的词汇量 + 极弱的结构化实现了五花八门的表达方式。 

    3.歧义性
    自然语言含有大量“歧义”,而编程语言不允许存在“歧义”。自然语言中可能存在大量的歧义,而这些歧义在不同的语境下可能表现为不同的意思 ,而机器所处理的编程语言则不能具有任何歧义 ,有一点歧义就会导致代码的运行错误、编译错误。举一个经典的笑话:

    他说:“她这个人真有意思(funy)。”她说:“他这个人怪有意思的(funy)。”于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)!”她也生气了:“你们这么说是什么意思(Intention)?”事后有人说:“真有意思(funny)。”也有人说:“真没意思(nonsense)。”

    4.容错性
    在编程语言中,程序员必须保证拼写绝对正确、语法绝对规范,否则要么编译器警告,要么造成潜在的风险BUG。但在自然语言中,即使语言经过多次的编辑校对,也不一定能够保证完全没有错误。
    5.易变性
    任何语言都是在不断地发展变化,不同的是,编程语言的变化要缓慢的多,而自然语言相对迅速嘈杂一些。
    6.简略性
    自然语言通常简洁、干练。而计算机语言则不能够省略大量的背景知识和常识。例如我们经常使用简称,比如“工行”、“地税局”,假定对方熟悉改简称。

3.自然语言处理的层次 

按照处理对象的颗粒度区分,自然语言处理大致可以分为如图所示几个层次。

  1. 语音、图像和文本
    自然语言处理系统的输入源分为三部分,分别为语音、图像与文本。其中,语音和图像这两种形式一般经过识别后转化为文本在进行接下来的处理,我们称为语言识别(Speech Recognition)和光学识别(Optical Character Recognition)。转化为文本之后,就可以进行后续的NLP任务。
    所以,文本处理是自然语言处理中的重中之重。
  2. 中文分词、词性标注和命名实体识别
    将这三个任务统称为词法分析。
    中文分词——将文本分隔为有意义的词语
    词性标注——确定每个词语的类别和浅层的歧义消除
    命名实体识别——识别出一些较长的专有名词
  3. 信息抽取
    词法分析之后,可以抽取部分有用的信息,也可以根据词语之间的统计学信息抽取关键短语乃至句子,更大颗粒度的文本。
  4. 文本分类与文本聚类
    文本分类——把许多文档分门类地整理的NLP任务
    文本聚类——把相似的文本归档到一起,或者排除重复的文档,而不关心具体类别的NLP任务
  5. 句法分析
    句法分析只能得到一些零散的词汇信息,计算机并不知道词语之间的关系。
  6. 语义分析与篇章分析
    语义分析侧重语义,句法分析侧重语法。语义分析包括词义消歧、语义角色标注、语义依存分析。
  7. 其他高级任务
    自动问答
    自动摘要
    机器翻译
     

4.自然语言处理的流派 

  1.  基于规则的专家系统
    专家系统是由专家人工制定的确定性流程 ,只是看起来像人工智能而已。本质上仍然是“有多少人工,就有多少智能。”专家系统在 NLP 领域的应用有波特词干算法(Poter stemming algorithm),广泛应用于英文词干提取,部分规则例如:

2.基于统计的学习方法
统计——在语料库上进行的统计。语料库——人工标注的结构化文本。

3.历史

;