Bootstrap

bio和bieos哪个标注模式好_2021秋招-NLP基础任务模型-NER

NLP基础任务模型-NER

注: 基本全是转载,也都附加了转载链接,侵删。 多谢各位大佬的总结。

目录:

任务定义

简单综述

数据集细节总结

模型细节总结

损失函数计算

总结

NLP实战-中文命名实体识别

条件随机场的理解及BI-LSTM+CRF实战

超详综述 | 基于深度学习的命名实体识别

目录

1. 全文简介

NER 任务的常用标注语料

现成的 NER 工具

三个角度介绍现有研究工作:分布式嵌入表示,文本编码,标签解码;

其他研究方向的深度学习方法做 NER

NER 面临的挑战与机遇

2. NER任务简介

命名实体识别(Named Entity Recognition, NER)是指从自由文本中识别出属于预定义类别的文本片段。 实体归为两类:generic(通用类)和 domain-specific(特定领域类)。

3.NER标注语料库(公开评测集)

重点关注数据集:

4. NER工具

论文对学术界和工业界一些 NER 工具进行汇总,工具中通常都包含预训练模型,可以直接在自己的语料上做实体识别。不过一般研究使用的话(所定义实体类别与工具预定的不符),还需要依据待抽取领域语料再训练模型,或重新训练模型。

5.评价指标 (Evaluation Metric)

论文将 NER 评测指标 P R F1 分为了两类介绍,这也是比赛和论文中通用评测方式:

Exact-match:严格匹配,范围与类别都正确。其中 F1 值又可以分为 macro-averaged 和 micro-averaged,前者是按照不同实体类别计算 F1,然后取平均;后者是把所有识别结果合在一起,再计算 F1。这两者的区别在于实体类别数目不均衡,因为通常语料集中类别数量分布不均衡,模型往往对于大类别的实体学习较好。

relaxed match :宽松匹配,简言之,可视为实体位置区间部分重叠,或位置正确类别错误的,都记为正确或按照匹配的位置区间大小评测。

6. 序列标注标签方案

BIO

BIOES

基本都逃不脱这两种,B 开始位置、I 中间位置、O 其他类别、S 单字表示一个实体。

句子:西南交通大学位于成都。

预定义实体类别:学校、地点。

上述句子按照BIOES方案标签:

西 南 交 通 大 学 位于 成 都

B-学校 I-学校 I-学校 I-学校 I-学校 E-学校 O O B-地点 E-地点

7.四类常用NER方法

规则模板,不需要标注数据,依赖于人工规则;

无监督学习方法,不需要标注数据,依赖于无监督学习算法;

基于特征的有监督学习算法,依赖于特征工程; CRF++

深度学习方法。

8.基于规则方法

特定领域词典,其中还包括同义林词典;

句法词汇模板;

正则表达式;

论文列出了一些基于规则的 NER 系统:LaSIE-II, NetOwl, Facile, SAR, FASTUS, and LTG。总的来说,当词汇表足够大时,基于规则的方法能够取得不错效果。但总结规则模板花费大量时间,且词汇表规模小,且实体识别结果普遍高精度、低召回。

9.无监督学习方法

主要是基于聚类的方法,根据文本相似度得到不同的簇,表示不同的实体类别组。常用到的特征或者辅助信息有词汇资源、语料统计信息(TF-IDF)、浅层语义信息(分块NP-chunking)等。

10. 基于特征的有监督学习(传统机器学习)

NER 任务可以是看作是 token 级别的多分类任务或序列标注任务,深度学习方法也是依据这两个任务建模。 (这整个任务做法有什么区别吗? )

特征工程:word 级别特征(词法特征、词性标注等),词汇特征(维基百科、DBpdia 知识),文档及语料级别特征。 (分别怎么建模和使用呢? )

机器学习算法:隐马尔可夫模型 HMM、决策树 DT、最大熵模型 MEM、最大熵马尔科夫模型 HEMM、支持向量机 SVM、条件随机场 CRF。(除了CRF和HMM其他方法具体都是怎样做的呢? )

11.深度学习方法

终于进入正题,下文将按照以下四点,详细介绍基于深度学习的 NER 方法。

深度学习优势

分布式表示

上下文编码结构

标签解码结构

11.1 深度学习优势

不能算深度学习做 NER 的优势,深度学习解决其他问题也是这些亮点。

强大的向量表示能力;

神经网络的强大计算能力;

DL 从输入到输出的非线性映射能力;

DL 无需复杂的特征工程,能够学习高维潜在语义信息;

端到端的训练方式。

11.2 分布式表示

词级别表示word-level representation

首先 Mikolov 提出的 word2vec(两种框架 CBOW 和 skip-gram),斯坦福的 Glove,Facebook 的 fasttext 和 SENNA。使用这几种词嵌入方式,一些研究工作使用不同语料进行训练,如生物医学领域PubMed、NYT 之类。

字符级别表示 character-level representation

字符级别通常是指英文或者是其他具备自然分隔符语种的拆开嵌入,在中文中指字级别嵌入,字符嵌入主要可以降低 OOV 率。文中给出了两种常用的字符级别嵌入方式,分别为 CNN、RNN。

着重提一下 18 年 COLING 的一项工作《Contextual String Embeddings for Sequence Labeling》,使用字符级别的神经语言模型产生上下文相关的文本嵌入。大致思路为使用双向RNN编码字符级别嵌入,将一个词的前向和后向隐层状态与词嵌入拼接作为最终词嵌入向量,如下图所示。

3. 混合信息表示 hybrid representation

除了词级别表示、字符级别表示外,一些研究工作还嵌入了其他一些语义信息,如词汇相似 度、词性标注、分块、语义依赖、汉字偏旁、汉字拼音等。此外,还有一些研究从多模态学习出发,通过模态注意力机制嵌入视觉特征。论文也将 BERT 归为这一类,将位置嵌入、token 嵌入和段嵌入看作是混合信息表示。

11.3 上下文编码

包括了卷积网络 CNN、循环网络 RNN、递归网络、Transformer。

11.3.1 CNN

基本框架如下图所示,句子经过 embedding 层,一个 word 被表示为 N 维度的向量,随后整个句子表示使用卷积(通常为一维卷积)编码,进而得到每个 word 的局部特征,再使用最大池化操作得到整个句子的全局特征,可以直接将其送入解码层输出标签,也可以将其和局部特征向量一起送入解码层。

11.3.2 循环神经网络 RNN

常用的循环神经网络包括 LSTM 和 GRU,在 NLP 中常使用双向网络 BiRNN,从左到右和从右到左两个方向提取问题特征。

11.3.4 Transformer

Google 的一篇《Attention is all you need》将注意力机制推上新的浪潮之巅,于此同时 transformer 这一不依赖于 CNN、RNN 结构,纯堆叠自注意力、点积与前馈神经网络的网络结构也被大家所熟知。此后的研究证明,transformer 在长距离文本依赖上相较 RNN 有更好的效果。

11.3.5 神经语言模型

ELMO

BERT

GPT

GPT2

XLNET

ALBERT

RoBERTa

11.4 解码层

MLP+softmax

CRF

RNN

Pointer Network

对于 1、2 应该没什么要说的常规操作,着重看一下 3 和 4。使用 RNN 解码,框架图如下所示。文中所述当前输出(并非隐藏层输出)经过 softmax 损失函数后输入至下一时刻 LSTM 单元,所以这是一个局部归一化模型。

使用指针网络解码,是将 NER 任务当作先识别“块”即实体范围,然后再对其进行分类。指针网络通常是在 Seq2seq 框架中,如下图所示。

12.其他研究方向的NER方法

下面列出各类研究方向的 NER 方法,若想细致了解每个方向的文献,请移步原文。

多任务学习 Multi-task Learning

深度迁移学习 Deep Transfer Learning

深度主动学习 Deep Active Learning

深度强化学习 Deep Reinforcement Learning

深度对抗学习 Deep Adversarial Learning

注意力机制 Neural Attention

13.NER任务的挑战与机遇

13.1 挑战

数据标注

非正式文本(评论、论坛发言、tweets 或朋友圈状态等),未出现过的实体。

13.2 机遇与未来可研究方向

多类别实体

嵌套实体

实体识别与实体链接联合任务

利用辅助资源进行基于深度学习的非正式文本 NER(补充一点,知识图谱方向)

NER模型压缩

深度迁移学习 for NER

损失函数部分

类似对话生成等、序列标注是不是计算loss时候也是将整句话的每个单词的loss进行求和。

也就是: 针对每个单词进行交叉熵计算完了再求和。

浅谈嵌套命名实体识别(Nested NER)

;