信息检索与智能问答

一、信息检索模型
二、文本索引和搜索
三、Web检索(Web IR) - 搜索引擎
- 1.Web搜索引擎四个体系结构
四、文本分类和聚类
五、智能问答
- 1.实体关系三元组抽取
- 2.实体关系三元组最新研究
六、知识图谱表示KGE - 二元关系知识图谱
七、阅读理解式问答
- 1.综述
- 2.不连续MRC

一、信息检索模型

1. 布尔模型

将用户的查询式表示为==析取范式==：⽤连词v把⼏个公式连接起来所构成的公式叫做析取

将文档根据用户关键词 表示为布尔表达式

查询时直接以文档的布尔表达式和用户查询析取范式按位与

优点：

查询简单，易理解，查询速度快

可以揭示索引项(Term)之间的关系 - 可以通过布尔表达式刻画出来（A地苹果 C地）（1 1 0）表示’A地的苹果‘

缺点：

关键问题：不能对文档和查询的相关性进行排序

2. 向量空间模型 - 由布尔模型不足（相似度不能排序）提出

将用户的查询也看成了一个文档，再由文档分出一个个索引项（Term）

提出就是为了能够计算两个文档相关程度的大小

查询和文档都可以 转化成Term及其权重组成的向量表示，因此就可以衡量两者的相关度

关键问题：

Term（索引项）的选择 - 可以描述文档的内容，可以区分当前文档与其他文档

索引项选择 - N-gram:是为了一些小语种，这样做简单有效

索引项的权重 - 刻画描述文档内容的能力，区分其所在文档与其他文档的能力 — TF-IDF

文本的长短会影响TF的值 —> 为了不影响计算，直接归一化（Normalization）

相似度计算 — 内积计算，余弦相似度，Jaccard系数

优点：（布尔模型的缺点就是向量空间模型的优点）

模型有很大的灵活性，只提供了一个框架，在实现时用户可以选择很多方法实现

布尔模型不能衡量相关度，该模型可以衡量相关度，所以可以排序，因此提高了检索性能

缺点：

为了简化模型，引入了索引项独立性假设，但现实并不是如此

没有严密的公式推理

3. 扩展布尔模型

二者具有高度的互补性

用向量空间模型改进传统布尔模型

4. 概率模型 - 二值独立检索模型

基本思想

概率模型是在布尔逻辑模型的基础上为了解决检索中存在一些 不确定 性引入的

如下图第3点，信息检索系统有很多不确定性

假设： 对用户的查询，都存在一个理想文档集R，只包含完全相关的文档

Term（索引项）的选择 - 可以描述文档的内容，字/词/短语之类的

信息检索 -> 描述理想文档集（处理文档属性）-> 用索引项刻画属性 -> 引入概率论

模型定义，假设，过程

每个文档di 和查询q 计算相关概率和不相干概率

二值独立检索模型 - 二值（文档相关性：相关和不相关），独立（索引项之间独立，文档和查询式相关性与其他文档独立）

**定义相似度：**类似TF-IDF，一个文档是否选择，即与相关文档集有关，又与非相关文档集有关

相似度 sim(dj, q) 是 文档与查询相关的概率 / 文档与查询不相关的概率

（**P(R/di)：**是文档集和文档的相似度，这种相似度的计算需要转化到索引项上）

为了衡量文档集和文档之间的相似度 — 文档d被定义为：索引项的向量（w1,j, …, wn,j）

使用已知量对两个概率进行估计

**相等的理由：**简单来说就是表示 - 随机抽取一篇文档是否和查询相关的概率

连乘是因为索引项独立

$g_i(d_j)$ 表示索引项是否同时出现在文档 $d_j$ 和查询中

初始化后 -> 就可以计算文档和查询相似度 -> 得到相关和不相关文档集 $R,\overline{R}$ -> 之后就可以进行迭代，用新的集合计算上图概率值

即：新参数和新文档集不断迭代

优缺点：

比向量空间模型的数学推理严密

缺点：

向量空间模型灵活：有很多种实现方法；概率模型没有其灵活

因为该模型需要迭代，所以在速度上有劣势

5. 统计语言模型 - 马尔可夫链

计算一个序列出现的概率 - 不可以假设每个词之间独立，所以可以用链式规则进行解

如果用链式法则计算时，会出现参数太多的问题：比如文字有8000个，要计算每个P(w1,w2)，就有8000*8000种可能

因为因为考虑的词多了，需要计算的可能排列就多了，所以可以使用马尔科夫链减少考虑的词

n元语言模型最大似然估计

N元语言模型 == N-1阶马尔科夫链

可以估计有限文本h情况下所有排列的可能性

可能出现概率为0 的情况，使用平滑

基于语言模型的IR - 相似性是生成查询的概率

重点：对每个文档得到一个语言模型 -> 将文档的语言模型生成查询q的概率看成文档和查询的相似度

计算文档语言模型可以提前计算，因此在计算相似度时速度会很快

优缺点：

优点：

概率模型，向量空间模型都有索引项独立的假设，但该模型没有

缺点：

每一个文档建立一个语言模型，而一个文档数据量比较少，所以会出现稀疏性

6. 隐性语义索引模型LSI

问题提出 - 以词多义一义多词

为了解决一词多义和一义多词

一词多义：会影响返回相关文档准确率下降

一义多词：相关文档会找不全

模型方法 - 统计的方法

LSI提出的目的是：绕过自然语言处理，用统计的方法达到目的 - 奇异值分解

奇异值分解可以保留有用的信息，让语义变得紧凑

如果有一词多义和一义多词，会在语义上比较分散，通过分解后，语义被压缩，干扰语义的信息会被丢弃

d2,d3文档没有共同词汇，如果用其他方法模型计算相似度就为0

但是d2中电脑和d3中计算机是相关的

压缩后d2，d3就有了相似度

优缺点：

7. 检索系统评价指标 - 相关度排序

时间与空间性能和 相关度排序性能

准备条件：

1> 基本评价指标

召回率和准确率 - 一个查询

对一个查询q：

召回率 = 系统输出结果是相关的文档数 / 相关的文档数 — （全不全）

准确率 = 系统输出结果是相关的文档数 / 检测的文档数 — （准不准）

准确率上升时，召回率下降

该方法画出的图用于比较两个系统的性能

平均准确率 - 多个查询

2> 单值评价指标 - 都关注准确率

不关注召回率是因为 — 找出所有的相关文档是不现实的

但准确率只需要判断找出的文档是否相关，这个任务比召回率的简单

已检索相关文献的平均准确率均值 MAP

MAP公式解释：相关文档位置越靠前，值越高

检索出的结果：R1,R2,R3,R4 (黑体为相关的文档) — 2个相关文档，检出第一个相关文档准确率是1/2，第二个是2/3

MAP = 1/2 * (1/2 + 2/3)

P@10

R准确率 — P@R 对单个查询

准确率直方图 - 多查询

不足：

判断不完整，2. 高低相关度的差异未体现

3> 特殊的评价指标

Bpref指标 - 对经过判断的文档评价

对于每个结果文档，依次判断文档是否相关也比较难（判断不完整）

Bpref 只考虑返回结果中经过判断的文档，没有判断的不考虑

未判断的文档不计入不相干文档数

相关性判断完整的情况下，Bpref和MAP是一致的评价结果

N(D)CG - 对高相关性文档检索能力评价

CG — 用户依次看返回的文档时，用户获得的累计信息量

但该权值不能很好的体现文档位置对用户的价值

体现了文档位置对用户的使用体验

归一化结果表示：考察一定数量的文档时，达到了理想状态的百分之多少

单一相关文档检索的评价 - 只看最相关文档

用户只看第一个最相关的文档

排序倒数 RR - 没刻画相关度

位置的倒数 — 本质是一个准确率值（输出了r个文档，只有一个相关）

没有刻画相关度程度：RR是基于而言相关判断基础的

平均排序倒数 MRR

反映了：效率 — 平均查看多少个文档才能找到相关文档

O-measure - 可评价相关度不同的文档

NWRR

二、文本索引和搜索

检索结果文档的后处理：对文本内容不适用索引技术进行查找，并进行过滤或加粗

1.倒排文件索引

维护倒排文档需要三种操作：插入，删除，更新

但更新需要较高的代价，所以用删除+插入代替

压缩

长字符串存储单词表，每个单词之间进行分割(\0)

2.后缀数组索引 - 倒排不足

便于词组（短语）查询，对于不存在词可以很好的查询，方便词组查询

3.签名文件索引

面向单词的索引结构，适合小规模文本

将多个单词分成一个块，块的签名是块中单词签名按位或操作

F位，m位置1：m越大，物件出现的次数就会增加；m减少，为了保证单词签名不同，F就会变大，m不能过大，也不可过小

4.文本搜索技术 - 单模式匹配

不能建索引时，可以使用文本搜索来标记文本内容中关心的内容所在位置

BF算法 - 蛮力算法（简单，容易实现；复杂度高）

KMP算法

BM算法 - 更有效

两种情况，对应不同的策略

KMP研究的是模式字符

BM研究的是文本

三、Web检索(Web IR) - 搜索引擎

定义：针对互联网的文本数据，搜索引擎是最经典的代表

1.Web搜索引擎四个体系结构

Web数据采集

工作原理：

Web数据采集系统基本结构

集中式Web数据采集系统结构

分布式Web数据采集系统结构 - 主次结构对等结构

数据采集系统的分类：

基于主题的采集：对热点主题单独进行采集

前三个都是被动的采集过程，采集不是很高效

迁移的数据采集：主动采集过程，当信息改变时，由网站通知采集，高效；之所以仍在理论研究，是因为信任问题

网页预处理

重心放在：将正文提取出来；去重

去重工作用模型（如：向量空间模型）做会比较困难，因为数据量多，计算成本太大

索引检索系统

上两章中的文本索引和搜索和信息检索模型

检索结果排序系统

经过索引检索系统后有一个排序结果，但其是基于文字内容的，有很多信息没有用到：忽略了标记和超链接等内容。

例如：人们更想用官方信息

PageRank算法 – 判断网页权威（重要程度）

利用网页的链接信息得到权威网页

和用户无关，所以可以线下计算好

如何标识重要程度：

一个网页被指向的越多，他的重要程度就越高；

指向它的网页重要程度越高，它就越重要

指向它的网页若指向其他网页个数越多，它越不重要

四、文本分类和聚类

如果把数据分成类别，在对用户查询的意图进行判断，那么查询的数据量就会减少很多

不需要训练过程

五、智能问答

信息检索和智能问答的关系

阅读理解式问答：基于传统信息检索返回的文档，系统由用户的Q，从这些文档中找的答案A — 相当于二次删选

基于知识库的问答：固定的常识，非常依赖知识库，需要构建知识库，且覆盖度，时效性不够

知识库构建中的实体识别后又要加一个关系分类，这样会导致错误累计，所以现在主流方法直接使用三元组抽取

知识库表示：将知识库映射成具有语义信息的，可计算的形式。即：将知识库变成一个低维可计算的向量，可以得到“妻子”，“太太”是一种关系

智能问答分类：

1.基于知识库的问答：

1.实体关系三元组抽取

传统 - 基于Pipeline构建：

命名实体识别模型和关系分类模型被当作两个不同的模型研究

实体关系三元组的联合抽取：

基于生成的方法 — 生成文本的序列（将三元组当成文本的序列）

按序生成S，R，O，这样会得到三元组集合

性能最低 — 三元组集合中内容原本是无序的，但生成模型生成是有顺序的（即花了时间在生成循序上）

实体重叠：一个实体是由abc组成，另一个是由bcd组成，有共同的文本

实体嵌套：中国中国北京

基于标注的方法

两个标注方法是基于标注的两个步骤：

先标头实体

在尾实体和关系同时标注时：对每个头实体，与每一个尾实体做匹配，得到两者对于每种关系的可能性

基于填表的方法

n * n * r：n * n是单位和单位（单位：字or词)的矩阵，r是之间的关系

即：每个关系都有n * n的表

优点：推理效率高，对比基于标注的方法的两个步骤，其是一步完成三元组抽取

缺点：填表是一个迭代操作，所以标注空间大；表中的写的标识tag不太好设计，希望tag能够体现出语义信息

2.实体关系三元组最新研究

实质是基于表填充的方法，定义一个标签tagging

隐含的三元组：a和b是同学，b和c是同班，所以a和c是同学；这是隐含在推理路径中

有很多实际情况，现时中的关系并没有在训练集中出现，这就有了Zero-Shot和Few-Shot

关系和实体之间相互约束

六、知识图谱表示KGE - 二元关系知识图谱

难点：

复杂的关系：关系类型多，1:1,1:N,N-1,M-N
复杂的关系模式：对称/反对称，逆，组合

**KGE: **实体映射成空间中的一个点，关系是空间中的一个操作

1.Trans系列

各个方法的差别：如何去理解知识图谱中三元组在空间中的形式

TransE

实体映射成空间中的一个点，关系是空间中的一个平移操作

TransH

空间中的多个点，可以映射到超平面中的某个点上

解决了1-n, n-1, m-n关系

TransR

每个实体都有多个语义面，而不同关系关注不同的语义面

关系定了后，语义也会被决定

头实体和尾实体用了和一个矩阵进行映射，有研究觉得不合理

2.张量分解

打分函数：头实体 $e_i$ 张量 $M_k$ 尾实体 $e_j$ ，通过这个函数判断头实体和尾实体有这个关系的可能性

不同模型的差别：张量的分解形式

双线性模型就是将实体映射到双线性空间中的某个点，而关系就是对应空间张量分解的操作

Trans系列方法对于上述两类问题解决

3.二元关系KGE最新研究进展

把实体和关系映射到一个空间，在该空间中将结构保留出来

把实体当成空间中的一个点，关系作为操作

PairRE - 正确的三元组，在经过关系的映射后，距离接近

4.三元关系最新发展

七、阅读理解式问答

Q —IR—》 D（相关文档） —MRC—》 A（直接从相关文档中利用阅读理解式问答提取答案）

基于知识库问答 - 覆盖率低，精度高

基于阅读理解式问答 - 覆盖率极广，精度没法太高

长文本处理：处理文本第一步使用预训练模型Embedding，但模型都对文本有限制（512字节），在做长文本任务时会超出限制

1.截断(重点会放在前面) 2.滑动窗口(把语义割裂了，语义不完整)

鲁棒性研究：泛化能力（训练在A，测试在B）；few-shot，zero-shot（训练时就不充分）；

过敏感（对输入太敏感了，容错能力低）；过稳定（对输入不敏感，对于不同输入希望改变但却没变）

1.综述

给定一些文档和与文档相关的问题，让机器从文档中找出问题的答案

完形填空：给定挖空的文章，对应的答案，选择答案

多项选择：给定文本，给定问题，给出多个答案，选择答案

上面两个存在问题 - 单词或实体不足以回答问题，答案需要一些完整句子，难以构造答案

片段抽取：给定问题，文章，抽取连续的片段，有代表性的数据集 - 斯坦福的SQuAD

自由作答：给定问题，文章，答案不再限制于原文的句子

代表性数据集：微软的MS MARCO

DuREader - 中文数据集

ROUGE-L：包含最长公共子串任务

前三大步现在可以直接用Bert来进行

Answer Prediction：使用指针网络；边界模型 - 确定头位置，尾位置（文本中每个token有两个概率-作头的概率 $s_i$ ，作尾的概率 $e_i$ ,最后答案 $max s_i*e_j(i<j)$

很多研究者将自由作答式任务做成片段抽取式任务进行

现在自由作答任务：文本中抽取+字典中生成

抽取+生成 - 整个过程是一个以字为单位，序列生成的过程：

生成某位置时，要看这个字是从文本中copy过来的还是从字典中得到的，两个概率进行叠加，哪个词叠加概率最大，就生成出来

发展趋势：

基于知识的阅读理解会兴起

知识如何获取，知识如何融合

识别是否能回答，不仅仅是一个简单的二分类问题，它依赖模型对文档的理解

多文档机器阅读理解
对话式阅读理解，数据集：CoQA，QuAC

待解决问题：

外部知识引入

阅读理解系统鲁棒性

推理能力缺乏

2.不连续MRC

片段抽取时，使用边界模型就可找出片段，但有时候答案需要由多个片段组成