Bootstrap

自然语言处理(第3课 形式语言与自动机)

一、学习目标

1.形式语言的定义与推导过程
2.推导过程的派生树表示形式
3.乔姆斯基4类文法
4.4类文法对应的自动机
5.自动机的一种应用

二、形式语言的定义与推导过程

1.形式语言是用来精确描述语言及其结构的手段。
在这里插入图片描述
形式语言就是机械地统计出语言句子的结构和单词。一个简单应用就是:有了这样一套规则就能去区分一个句子是否有句法错误
2.形式语法的定义:
在这里插入图片描述
N是变量集合,相当于是数学算式中的未知数x,在实际应用一般表示为词语的词性(动、名、介),或者句子的结构(主、谓、宾)。
∑是终结符集合,实际上就是具体的字符。不是逗号、句号这些符号的集合。
P是重写规则集合,即是初始符和变量可以改写成另外一种形式。当将变量改写成具体字符后,该字符就不能在改写,故称具体的字符为终结符
S是初始符,改写规则的最初字符。

3.推导方式:
在这里插入图片描述
一个例子如下:
在这里插入图片描述
在这里插入图片描述
对于同一个短语,显然我们会有许多种推导过程,甚至同样是最右推导,也可以有不同的推导过程。

4.关于句型、句子、语言的定义:
在这里插入图片描述
以上例为例子:
在这里插入图片描述
而语言,在形式语言中,就是所有句子的集合。(显然,这样的定义是机械的,缺少创新和变通,无法描述语言中的新词汇、新句式的产生)
在这里插入图片描述

三、推导过程的派生树表示形式

1.还是以上面的例子为例:最右推导如下
在这里插入图片描述
派生树就是:
在这里插入图片描述
显然,不止有这样的派生书,还有:
在这里插入图片描述
==如果存在某个句子有不只一棵派生树与之对应,那么这样的文法是二义的,或称歧义(ambiguous)文法。==显然,“关于鲁迅的文章”就是一个歧义句。

四、乔姆斯基4类文法

在这里插入图片描述

1.正则文法:(每次改写一定有一个终结符,变量符有一个或零个)
在这里插入图片描述
2.上下文无关文法:(每次改写一定有且仅有一个终结符即可)
在这里插入图片描述
3.上下文有关文法:(每次改写都有一个或多个终结符)
在这里插入图片描述
在例4中,(a)为第一条改写,不作考虑;(b)(c)中的α和β是空字符,(d)中C改写成了终结字符cc。故是上下文有关文法。
4.无约束文法:
在这里插入图片描述
5.四类文法的约束条件是逐渐放开的,也与后面的四类自动机一一对应。
在这里插入图片描述

五、自动机

在这里插入图片描述
在这里插入图片描述
有限状态自动机又分两类:
在这里插入图片描述
1.确定性有限自动机(DFA):
在这里插入图片描述
在这里插入图片描述
sp. 对于DFA和NFA,我们常用状态变换图来展示其过程。状态变换图的规则如下:
在这里插入图片描述
于此同时,当句子符合有限自动机的规则时,称为“接受”,用T(M)来表示被M语言接受的所有句子的全集
以下面例子为例:
在这里插入图片描述
2.非确定性有限自动机(NFA):
在这里插入图片描述
DFA与NFA的区别:前者转换后的状态是确定的,只有一个;后者转换后状态不确定,有多个。NFA例子如下:
在这里插入图片描述
3.正则文法与FA的关系:
在这里插入图片描述
在这里插入图片描述

正则文法->FA的步骤:
在这里插入图片描述
例子如下:
在这里插入图片描述
步骤如下:

在这里插入图片描述
FA->正则文法的步骤:
在这里插入图片描述
例子如下:
在这里插入图片描述

六、有限自动机与状态转移机的应用

1.英文单词拼写检查

2.英文大慈形态分析

七、本章总结

1.了解形式语言。
2.了解自动机,特别地,明白有限自动机和正则文法的关系。
3.由于形式语言和自动机是比较老的技术,前沿研究中对其的使用会比较少。但在数据量比较少,应用面比较窄的场合中,形式语言和自动机是性价比最好的技术。

;