Bootstrap

干货!基于动态图模型和上下文感知的临床事件预测

点击蓝字

3452d67be8e6a15451edad916fac35fc.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

e2688fa7c49088b81cec32a6d30ef3f3.gif

随着电子健康档案(Electronic Health Records, EHR)或电子病历在医疗系统中的应用,使用深度学习预测临床事件逐渐受到学者们的关注。

在预测临床事件时,电子病历数据中一个被人们常用且重要的特征是病人被诊断的疾病数据。

现有的方法将每个诊断作为一个独立的疾病输入到模型中,却没有考虑疾病之间的医学关联。其次,很多利用疾病表征的方法针对病人的每次就诊使用静态的疾病表征。

然而在实际应用中,病人的诊断通常存在相关性,如并发症等。此外,同一个疾病在病人的不同就诊中可能存在动态特征,如症状严重程度等。

因此,为有效探索疾病的相关性及其动态特征,我们提出了基于动态图模型和上下文感知的预测模型。

具体而言,我们使用全部数据为疾病构建全局的共现图。对于病人的每次就诊,我们为其构建局部的上下文子图。

其次,我们基于诊断出现的特征将一次就诊的诊断分为三种类别,并设计了三种转移方程来建模疾病的动态特征。

实验证明我们的预测模型在预测病人未来全部诊断和未来心脏病的诊断中由于目前临床事件预测的顶级模型。

本期AI TIME PhD直播间,我们邀请到美国史蒂文斯理工学院博士生——路畅,为我们带来报告分享《基于动态图模型和上下文感知的临床事件预测》。

5121221b4221e7887b737691a9727abd.png

路畅:

美国史蒂文斯理工学院2019级博士生,现就读计算机科学专业。他的主要研究方向是深度学习在医疗领域的应用,包括时序临床事件的预测、针对病人和医学概念的表征学习、以及医疗数据的生成等。相关工作发表在AAAI、IJCAI等会议以及IEEE Trans. On Cybernetics等期刊。

首先,我们介绍一下本研究的背景知识和数据集等等。

Tasks

● 使用电子健康记录(EHR)进行时序健康事件预测

■ 预测:在一定时间间隔内或基于时间序列数据的事件预测

■ 预测:到下一次访问的时间

95d1ab05e2a324015d72465b521bf17a.png

Electronic Health Records (EHR)电子病历—病人医疗记录的电子版本

● 定义

■ 病人病历的电子版本

● 内容

■ 医学概念:诊断、程序、药物、临床记录、实验室检测等

● 好处

■ 自动访问信息

■ 简化临床医生的工作流程

■ 为研究人员提供有价值的资源

● 示例

bc0ac778d64ecd92c2f0acc2ec0bd78c.png

首先是病人的ID和就诊ID,已经病人的就诊数据,包括就诊时间等等。我们也可以通过就诊时间来推断病人的就诊顺序。

挑战

● 如何有效利用疾病关联信息来预测未来的疾病?

● 如何在持续疾病中探索疾病的动态方案?

疾病的组合信息

部分就诊的诊断实例

c89716cd8c7292f38d82dde949b19752.png

通过这些例子和更多的诊断数据,我们发现有些疾病经常同时出现在一个病人的诊断疾病中。

我们认为某些疾病可能存在诊断模式,如常见的并发症等。这样的关联信息为未来疾病的预测提供了帮助。

● 全局疾病组合图

■ 所有EHR数据中共同出现的疾病

为了更加直观的展现这些疾病模式,我们根据所有病人电子病历中诊断数据构建了一个全局疾病组合图。

● 如何有效利用疾病关联信息?

■ 局部诊断:每次就诊诊断

■ 本地邻居:全局疾病组合图中的邻居疾病

eb7ecc0eef5d9119ec30f675194678ea.png

每个病人的疾病只是当前结构中的一个子图。这些疾病在全局图中的邻居节点被称为局部邻居。

● 如何探索疾病的动态方案?

■ 优先级动态(主要诊断)

■ 从邻居到诊断的动力学

在得到这样一个全局图和局部图的结构之后,我们发现不同就诊并不是静态的,有一个动态的变化特征。

如下图,虽然哮喘在两次就诊都出现了,心脏病却在第二次就诊中成为了主要疾病,这也体现了疾病就诊的动态特征。

问题公式化

0229a0f395a70d2a37c18321d1019201.png

我们将电子就诊病例中的疾病用C来表示,对病人的全部就诊采用ru来表示。我们使用病人已有的T次序列ru来预测之后T+1次就诊事件。

我们在本研究之中主要关注两个预测:Diagnosis prediction和Heart failure prediction。

The Proposed Model: Chet

● 基于动态疾病图上转移函数的情境感知健康事件预测

■ 上下文感知动态图学习

■ 带有转移函数的疾病水平时间学习

67eb8bc62983a12c7579ebf49ee0ba2c.png

上下文感知动态图学习

首先是动态的图学习,节点代表疾病。但是在某些特殊情况下,两种疾病在医学上的关系也可能并不是很大。

● 全局疾病组合图

4b3073315c5886a27592338296d819e6.png

为了更好发现具有强相关性的疾病,我们通过统计每个疾病对出现的频率来筛选疾病对出现频率较高的邻居节点,这样也就可以将原来的图看做一个稀疏图。

最后我们为全局图的疾病图构建一个非对称的全局疾病A。因此,我们将A视为非对称权重矩阵。

在构建好全局的疾病图后,我们再将每个就诊子图划分为三种疾病子图,分别是局部诊断子图,全局的疾病邻居子图和全局的邻居子图。

● 对于局部诊断子图

9499b7c007cbceb4b7883ec94f24b2b6.png

5d9d9c9a076a90801d7dfcae2e8d394e.png

● 对于疾病的邻居子图

f8e5a152d4bcdccb695e74eddf81202f.png

1e8253bb0617ff0f06357aee48ae2d1a.png

● 对于全局的邻居子图

2563f879ffaaa51682fabf3243e71e45.png

6bcc8ce91c89c2006f935006ff6e9e1f.png

● 节点类型的上下文embedding

db6131e1afa6f1c5e72d3fd0bb3bf105.png

bc313bc57647530bbf84e1cdfc800e30.png

我们为每种疾病随机初始化了3种embedding,基于刚刚提到疾病类型,将于后面的图模型中分布学习不同的疾病类型。

我们同时对3中子图采用局部图网络进行学习。

Local context

Diagnosis global context

Neighbor global context (n^t is a binary vector for neighbors)

eda7de2e48fd9cc20ff0463e953ad733.png

此时我们对邻居节点使用的是邻居embedding N。

接下来我们还要将灰色节点的邻居信息聚合到灰色节点中,在图模型的聚合过程中还会用到如下4种邻接矩阵。

由于每次计算都需要计算4种邻接矩阵,导致时间和空间复杂度很高。

e3fe7ac6d0aee1138bf50d52a0228413.png

因此,我们在计算中采取两个trick,把4个维度为d的邻接矩阵转化为每次就诊时的诊断向量m。

这样,我们就可以实现了空间复杂度的下降。通常embedding维度都远小于疾病的个数,我们也就实现了降维效果。

带有转移函数的疾病层面的时序学习

6882c094afc4dbc868bd5d6af21eda04.png

我们可以用上次就诊时的m和上次就诊时n的补集取交集,去求解新出现的无关集。对于这三种诊断类型,我们分别设计了三种转移函数,分别是诊断到诊断的转移,邻居到诊断的专业,无关疾病到诊断的转移。

我们考虑到其并没有从上次就诊中提取到有关的信息,而是从邻接关系中获取到了信息。

● Neighbors/Unrelated → Diagnosis

■ Emerging, not continuous

■ Not directly inherit information from previous diagnoses

a864f0718b415637289c45853dc87a3a.png

我们是希望通过上次就诊时的隐特征间接地参与到时序特征的计算中,同样使用这样的注意力机制作为转移函数

ffe7d5792c57f9af435729a82082bdf9.png

对于诊断到诊断的转移,我们认为这样的诊断时连续的,是直接从上次诊断继承了部分信息。

因此我们设计了GRU作为疾病转移的函数。其次我们考虑到当前就诊时新出现的邻居在未来就诊时也可能出现诊断,因此我们将其时序特征也载入到了GRU的计算之中。

最后,在输出层会引来聚合所有诊断的信息,会有一个点击方式聚合历史全部的诊断信息。我们在最后针对不同任务使用不同的分类器进行预测。

接下来是本次工作的实验部分。

Datasets and Tasks

05d9782d91da5ccfc508cce365e6772e.png

● Tasks:

■  全部诊断预测:预测下次就诊时的诊断,多标签分类

◆ Weighted F1 score (W-F1)

◆ Top-k recall

■ 心脏病预测:预测患者在下次就诊时是否有心衰,二元分类

◆ F1 score

◆ AUC

全部诊断预测结果

064d0feeb75b73a5fcbb3e62a07c7a43.png

上表为我们提出的模型Chet在两个数据集上预测任务的结果,其中我们的模型即使没有使用模型的先验知识,仍然有最具竞争力的预测结果。

心脏病预测结果

7b3abae3cb2c031e5687fad3f9f0ff64.png

上表同样可以看出Chet模型在两个数据集上都可以得到最具竞争力的预测结果。

诊断预测分析

09f18998b00bd6b85671db4a67b7c928.png

我们想深入了解我们的模型是如何提高诊断预测结果的,统一将top k召回率作出修改。

我们发现在召回率比较小的时候,我们的Chet模型依然表现较好。

当k值增加的时候,大多数模型在新出现诊断上的召回率都有所提高,可见我们模型在召回率上的提高主要源于对新出现诊断预测的贡献,也表现了我们模型在研究新出现诊断预测上的重要意义。

消融实验

b2406b53c2e426cb80ba2f9d4d93aac4.png

我们进行了两组消融实验来论证动态子图和转移函数的重要性。

● d-:删除动态子图,并对疾病使用通用嵌入

● t-:移除转移函数。用疾病嵌入总数作为访诊嵌入

结果表明,动态子图学习和转移函数都有助于预测。

贡献

● 情境感知动态图学习学习疾病组合

■ 全球疾病组合图

■ 邻接子图

● 探讨过渡功能疾病发展方案

■ 诊断的角色

■ 转移函数

未来工作

● 包含更多的功能类型和数据类型

● 可解释性

■ 反事实的可解释性

■ 可解释的转移函数

论文题目:

Context-aware Health Event Prediction via Transition Functions on Dynamic Disease Graphs

论文链接:

https://arxiv.org/pdf/2112.05195.pdf

点击“阅读原文”,即可观看本场回放

整理:林  则

作者:路  畅

往期精彩文章推荐

bcf88ae46ee6736ddaf71e16f3090af9.png

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了600多位海内外讲者,举办了逾300场活动,超210万人次观看。

ac10b58b2b59d1abf12fc4cc76596016.png

我知道你

在看

~

c0c8167e52fe47f057a0ae795f1b84e2.gif

点击 阅读原文 查看回放!

;