Bootstrap

论文精读:Amortized Causal Discovery: Learning to Infer Causal Graphs from Time-Series Data

Amortized Causal Discovery: Learning to Infer Causal Graphs from Time-Series Data

摘要

  1. 大多数因果发现方法在遇到新因果图的样本时会拟合新模型,但这种方法忽略了样本间可能共享的相关信息。
  2. Amortized Causal Discovery框架利用样本间共享的动态信息来学习推断时间序列数据中的因果关系。
  3. 该框架训练了一个单一的、可推广的模型,能够跨不同底层因果图的样本推断因果关系,从而利用共享动态信息。

贡献

​ 在这篇论文中,我们提出了一种新颖的时间序列因果发现框架,它考虑了这个方面:,摊还因果发现(图1)。在这个框架中,我们学习推断具有不同潜在因果图但共享动态的样本之间的因果关系。我们通过将因果关系预测与它们动态建模分离来实现这一点:一个摊还编码器预测因果图中的边,而一个解码器在预测的因果关系下模拟系统的动态。这种设置允许我们在样本之间汇集统计强度,并且随着额外训练数据的增加,性能显著提高。它还允许我们在不重新拟合模型的情况下,推断之前未见过的样本中的因果关系。此外,我们展示了摊还因果发现可以通过使用摊还编码器对未观测变量建模来提高隐藏混杂因素下的鲁棒性。我们的贡献如下:
• 我们形式化了摊还因果发现(ACD),这是一种新颖的时间序列因果发现框架,在此框架中,我们学习从具有不同潜在因果图但共享动态的样本中推断因果关系(方程(2))。
• 我们为ACD提出了一种变分模型,适用于多变量、非线性数据。
• 我们展示了该模型在一系列因果发现数据集上的有效性,包括完全观测设置、添加噪声以及在隐藏混杂因素下的情况。

背景

​ Granger因果关系(Granger, 1969)是从观察性时间序列数据中推断因果关系的最常用方法之一。其核心假设是原因先于结果:如果通过知道时间序列 X X X的过去元素可以改善对时间序列 Y Y Y未来的预测,那么 X X X“Granger导致” Y Y Y。最初,Granger因果关系是为线性关系定义的;我们遵循Tank等人(2018)对非线性Granger因果关系的更近期定义:
​ 定义1 非线性Granger因果关系:给定 N N N个平稳时间序列 x = { x 1 , … x N } \boldsymbol{x}=\left\{\boldsymbol{x}_1, \ldots \boldsymbol{x}_N\right\} x={ x1,xN}跨越时间步 t = { 1 , . . . , T } t = \{1, ..., T\} t={ 1,...,T}和一个非线性自回归函数 g j g_j gj,使得
x j t + 1 = g j ( x 1 ≤ t , … , x N ≤ t ) + ε j t + 1 ( 1 ) \boldsymbol{x}_j^{t+1}=g_j\left(\boldsymbol{x}_1^{\leq t}, \ldots, \boldsymbol{x}_N^{\leq t}\right)+\boldsymbol{\varepsilon}_j^{t+1}\quad(1) xjt+1=gj(x1t,,xNt)+εjt+1(1)
其中 x j ≤ t = ( … , x j t − 1 , x j t ) \boldsymbol{x}_j^{\leq t}=\left(\ldots, \boldsymbol{x}_j^{t-1}, \boldsymbol{x}_j^t\right) xjt=(,xjt1,xjt) 表示序列 j j j 的当前和过去,而 ε j t + 1 \varepsilon_j^{t+1} εjt+1 代表独立噪声。在这个设置中,如果 g j g_j gj 依赖于 x i ≤ t \boldsymbol{x}_i^{\leq t} xit, 即如果存在 ∃ x i ′ ≤ t ≠ x i ≤ t : g j ( x 1 ≤ t , … , x i ′ ≤ t , … , x N ≤ t ) ≠ g j ( x 1 ≤ t , … , x i ≤ t , … x N ≤ t ) \exists \boldsymbol{x}_i^{\prime \leq t} \neq \boldsymbol{x}_i^{\leq t}: g_j\left(\boldsymbol{x}_1^{\leq t}, \ldots, \boldsymbol{x}_i^{\prime \leq t}, \ldots, \boldsymbol{x}_N^{\leq t}\right) \neq g_j\left(\boldsymbol{x}_1^{\leq t}, \ldots, \boldsymbol{x}_i^{\leq t}, \ldots \boldsymbol{x}_N^{\leq t}\right) xit=xit:gj(x1t,,xit,,xNt)=gj(x1t,,xit,xNt),则时间序列 i i i Granger 导致 j j j

​ 如果所有相关变量都被观察到,并且不存在瞬时连接(Peters 等人,2013年,2017年,定理10.1),Granger 因果关系等同于底层有向无环图(DAG)中的因果关系。
​ 
包括向量自回归(Hyvärinen 等人,2010年)和更近期基于深度学习的方法(Tank 等人,2018年;Khanna 和 Tan,2019年;Wu 等人,2020年)在内的许多 Granger 因果发现方法,都可以被一个特定框架所囊括:

  1. 定义一个函数 f θ f_θ fθ(在Tank等人(2018)中为多层感知器(MLP),在Hyvärinen等人(2010)中为线性模型),它学习预测给定测试序列 x t e s t x_{test} xtest的下一个时间步。
  2. 通过最小化某个损失函数 L \mathcal{L} L来拟合 f θ f_θ fθ x t e s t x_{test} xtest θ ⋆ = argmin ⁡ θ L ( x test  , f θ ) \theta_{\star}=\operatorname{argmin}_\theta \mathcal{L}\left(\boldsymbol{x}_{\text {test }}, f_\theta\right) θ=argminθL(xtest ,fθ)
  3. 将一些固定函数 h h h(例如阈值化)应用于学习到的参数,以产生 x t e s t x_{test} xtest的Granger因果图估计: G ^ x test  = h ( θ ⋆ ) \hat{\mathcal{G}}_{\boldsymbol{x}_{\text {test }}}=h\left(\theta_{\star}\right) G^xtest =h(θ)。例如,Tank等人(2018)通过检查权重 θ ⋆ \theta_{\star} θ来推断Granger因果关系:如果时间序列 i i i j j j之间所有的外向权重 w i j w_{ij} wij都为零,则 i i i不Granger导致 j j j

​ 这种方法的缺点是,当我们有S个样本 x 1 , . . . , x S x_1, ..., x_S x1,...,xS,它们具有不同的潜在因果图时,必须分别为每个样本单独优化参数 θ θ θ。因此,此框架内的方法无法利用样本之间可能共享的信息。这促使我们提出疑问:我们能否使这个过程变得经济化?

摊还因果发现

​ 我们提出了摊还因果发现(ACD)框架,在这个框架中,我们学习如何推断具有不同底层因果图但共享动态的样本之间的因果关系。为了说明这一点,我们回到第1节中的例子:假设你想根据神经元的放电行为推断出它们之间的突触连接(即因果关系)。你得到了一组 S S S个记录(即样本),每个记录包含 N N N个时间序列,代表 N N N个独立神经元的放电。尽管你可能会记录下不同神经元群体的不同连接方式,但通过突触连接的神经元如何相互影响的动态保持不变。ACD利用这种共享的动态性来提高因果关系的预测。给定一个训练集 X t r a i n X_{train} Xtrain和测试序列 x t e s t x_{test} xtest,它可以总结如下:

  1. 定义一个编码函数 f ϕ f_ϕ fϕ,它学会推断 X t r a i n X_{train} Xtrain中任何样本 x i x_i xi的Granger因果关系。定义一个解码函数 f θ f_θ fθ,它学会在推断的因果关系下预测样本的下一个时间步。
  2. 通过最小化某个损失函数 L \mathcal{L} L来拟合 f ϕ f_ϕ fϕ f θ f_θ fθ
;