1 介绍
本文主要做的事情:在外包云服务器环境中,使用 CKKS 训练 二叉决策树 和 随机森林。这个方法对于保护从不同机构传来的数据的隐私性和安全性非常重要。
总体来说,改论文做了:
- 通过使用 HE 来进行加密,解决了将 不同来源的信息 组合在一起,且不将其暴露在安全风险下的问题。
- 介绍了一种称为 Homomorphic Binary Decision Tree (HBDT) 同态二叉决策树 的方法,采用 基尼杂质质数 (MGI) 来进行 结点划分。
- 通过使用 CKKS 的 SIMD 方法,HBDT 可以:
- 同时计算多个 MGI 实例
- 高效识别 分裂情况
- 在 不解密 的情况下 进行训练
此外,该研究展示了一种高效的推理算法,该算法对从所提出的训练方法中获得的结果进行操作。该算法,和 Mahdavi 等人的研究类似,使用 加法 进行 树评估 来保证 常数级别的乘法深度。
不同点在于,它从 加密源 中导出模型 数据,形成 加密模型。它 改变了在每个 树结点 上 处理推理输入 和 分割条件 的方法。
该研究创建 加密二叉决策树模型。该模型在 外包服务器环境 的 单个安全域内 仅使用 HE 操作来独特地 处理加密的训练数据,有效地消除了对 多个非协作服务器 的依赖。
作者还提出了一个模型,该模型可以:
- 当 模型和输入 都符合所需的 挂钟时间 时,通过 减少所需的计算量,可以 提高推理的效率。
- 该方法有效地利用了 CKKS 的 SIMD 特征,有效地确定了 输入 是否满足 每个节点的分割条件。
- 此外,即使在 输入和模型 都 加密 的情况下,我们也通过仅使用 O(1) 乘法 进行树计算来实现了高效的推理。
此外,这项研究还扩展到了 用于训练和推理 的高效 RFs,提出了用于 训练加密数据 的 新采样技术,以及将 许多单个树的推理结果 收集到 单个密文 中的有效方法。
2 文章结构
- Introduction
- Backgrounds
- Notation
- Binary Decision Tree
- CKKS (Cheon-Kim-Kim-Song) Scheme
- Related Work
- Models
- System Setting and Protocol Overview
- Problem Definition
- Homomorphic Binary Decision Tree (HBDT)
- HBDT-Training Algorithm
- HBDT-Inference Algorithm
- Extending to Homomoprhic Random Forests (HRF)
- Experimental Results
- CKKS and Subroutines
- Performance of Inference
- Performance of HRF
- Discussion
- System Model Without KM
- Discussion on Meeting the Privacy Requirements
3 结论
该研究中,提出了新的 HBDT (基于同态加密的决策树) 和 HRF (基于同态密码的随机森林) 机器学习方法。
与之前使用同态加密的隐私保护决策树的研究不同,改论文提出的方法通过在 不需要解密的情况下生成机器学习模型 (HBDT) 来克服 数据暴露 的问题。
在 不用解密 的条件下进行 推理 只需要 O(1) 次乘法,且可以无视树的深度。
在 训练阶段 对训练数据进行了 近似替换采样,而 不进行解密。
此外,通过 压缩 森林中每棵树的 推理结果,减少了 推理时间。