Bootstrap

隐私计算综述

一 背景

时光荏苒,一晃从自己开始写公众号到今天,已经有十个月了,刚刚看了下,这十个月的时间里,原创文章写了84篇,结合自己的从事过的方向,写了五大专栏:隐私计算、机器学习框架、机器学习算法、高性能计算、数学等方向。熟悉我的朋友大抵都知道我最初是做纯工程的,做搜广推的架构工程,后续转到了算法领域(机器学习框架与算法都涉及),后来由于项目需要,临危受命负责了京东的联邦学习,又开始搞隐私计算,这一路走来可以说是颇为折腾,感觉自己没有几天是放松的时间,不是在学习就是在学习的路上,没办法,谁让自己爱折腾呢!高T的要求是能横向拓展与技术迁移能力,但是我拓展的领域基本都是一个全新的领域,而且我对自己的要求是每个领域都要做到专家级别,所以可以说是难度很大,不过我个人就是喜欢折腾,对于新的事物很好奇,所以也就一路推过来了,好在过往的成绩证明我做的都还不错,也算是没丢人。写公众号的时候,我也想过是专门写一个领域还是多个领域,但是感觉自己写一个领域太浪费,所以将自己涉及的领域就都写了写。横向扩展领域后有个很大的好处就是在涉及到大型项目需要多个领域方向的时候,你会比较得心应手,就比如联邦学习这种典型的多学科交叉新兴领域,对于整体的技术选型、技术规划、协议设计、算法设计、分布式架构、性能优化等有很大的帮助,但是难度也是确实非常大的。

对于很多事情,我都是后知后觉者。其实从事互联网十多年的时间里,很早就有写点文章和大家分享的念头,但是一直也没有实施,终于在去年十月份,由于某些原因,自己算是开悟了,开始写了起来。到目前为止,隐私计算方面已经写了27篇文章,基本覆盖了隐私计算的方方面面,后续还会陆续的更新。回想起自己刚刚做联邦学习的时候,也是懵懵懂懂,很多密码学方面的知识理解的不够深刻,但是不服输的性格驱动了自己不断的前进,从理论和落地都得到了突破,在这个过程中,网络中很多的博主写的文章给了我很大的帮助,助力我走到现在。所以也萌生了自己写公众号的想法,分享下自己在隐私计算领域的一些心得,也为整个行业进一些微博之力,如果哪位同学能够从中受益,吾亦深感荣幸,同时鉴于个人能力限制,如果有写的不妥的地方,欢迎大家帮忙指正,共同进步。

回忆刚开始写公众号的时候,由于对文章有一定的要求,所以最初文章写起来不是那么顺畅,一度也到过进行不下去的境地,也想过放弃,本身工作性质就比较忙,业余时间就比较少,所以挑战还是非常大的。但是好在自己都坚持下来了。正所谓“万事开头难,后续皆坦然”。在陆续写了十几篇文章后,慢慢找到了感觉,就爱上了写文章去分享,也就不觉得是个苦差事了,现在的状态是一周不写一篇,就会感觉浑身不舒服,哈哈。

由于我自己比较轴,所以写文章也比较轴,每次写之前都是做了充足的调研,力争把事情讲清楚、说明白,至少从我自己这里来说,我是努力的朝着这个方向去做的。

感谢很多读者的鼓励和支持,也感谢很多从业的朋友的信任,技术是无边界的,希望大家一起共同推动技术的进步。

从业者的困惑
从业者的困惑

文章一旦多了,可能对于如何阅读就是个比较麻烦的事情,所以今天写了这篇文章,对“隐私计算”的文章进行导读,目前隐私计算较为全面,除了TEE(可信执行环境)之外都是较多的涉猎。作为一个在隐私计算-联邦学习摸爬几年,并且从0到1实现过京东零售联邦学习平台以及实现业务开门红的从业者,整个专栏的文章强调理论和实际的结合。

二 隐私计算前景

alt

2.1 政府法律法规

「各国政府机构和一些组织机构已经清醒的意识到隐私数据的严重性,从政策法规层面进行了规范,一下列举下最近几年各国关于数据隐私的一些重大的举措与案例:」

  • 「GDPR」是 (The European) General Data Protection Regulation 的缩写,翻译成中文是:「通用数据保护条例」,是欧盟议会和欧盟理事会在 2016 年 4 月通过,在 2018 年 5 月开始强制实施的规定。
  • 欧盟和美国政策制定者强调加强隐私技术是2021年的共同优先事项;
  • 据报道,2021年7月,美国统一法律委员会(ULC)投票通过了《统一个人数据保护法》( UPDPA)。 UPDPA是数据隐私法案范本,旨在为各州提供一个模板,以向自己的立法机构介绍,并最终作为具有约束力的法律。在最终修订后,UPDPA将于2022年1月前提交州立法机构。
  • 2021年6月《中华人民共和国数据安全法》(以下称《数据安全法》)历经三审三读,于2021年6月10日经第十三届全国人民代表大会常务委员会第二十九次会议通过。在二审稿基础上删除了1条,增加了3条,正式公布的文本共7章55条,将于2021年9月1日起正式实施。
  • 2021年7月10日,国家互联网信息办公室发布《网络安全审查办法(修订草案征求意见稿)》公开征求意见的通知,第六条中指出 “掌握超过100万用户个人信息的运营者赴国外上市,必须向网络安全审查办公室申报网络安全审查。” 由此可以看出,整治隐私保护、数据安全问题的决心。
  • 经过三次审议,十三届全国人大常委会第三十次会议表决通过了《中华人民共和国个人信息保护法》,并与2021年11月1日起施行。确立个人信息保护原则、规范处理活动保障权益、禁止“大数据杀熟”规范自动化决策、严格保护敏感个人信息、赋予个人充分权利等。

2.2 行业巨头布局

「基于数据隐私的重要性,各大互联网具体纷纷加大对于隐私计算的投入,鉴于数据隐私的法律法规越来越严格情况,未来对于目前互联网的“采 传 存 算”模式提出很大的挑战,数据的跨域传输会存在比较大的风险。所以为了确保在未来的赛道中脱颖而出,不落于人,并且保持先发的领先优势,各个行业巨头都在抓紧布局隐私计算。」

  • FaceBook利用隐私增强技术(PETs)在投放广告时保护隐私,应用MPC、联邦学习、差分隐私等方式进行相关的全链路保障。探索全同态加密技术的演进,期望通过端到端的加密,实现“加密数据的运算替换明文数据的运算,达到同样计算结果“的密保,解决数据隐私问题。
  • Google利用本地化差分隐私保护技术从Chrome浏览器每天采集超过1400万用户行为统计数据。Google推出的一项旨在保护用户隐私的颠覆性新技术FLoC,本质也是一种联邦学习的技术。
  • 2020年,苹果手机在其IOS14里,每个想要使用这些ID设备号的应用都需要在用户首次使用时向用户询问授权,用户可以选择“允许追踪”和“禁止追踪”,如果用户希望为广告商提供更多数据以获得更精准的广告推送,则需要明确授权允许,进一步保护用户隐私。
  • 2021年6月24日,在微软正式推出了 Windows 11 操作系统之后,同时发布了必须满足 Windows 的最低硬件要求,即WIT(Wintel Trust),其中指定了必须包含TPM可信计算硬件及软件,即不包含TPM硬件的设备不能使用Windows 11。
  • 2020年,京东(广告部门)与字节跳动在营销领域进行联邦学习合作,成功实现联邦学习平台的落地,并且基于业务进行联邦建模,双方业务大涨,效果显著。
  • 阿里达摩院发布了2022十大科技趋势,全域隐私计算强势上榜。并且阿里云、阿里妈妈与蚂蚁等都投入重兵布局隐私计算。
  • 百度研究院发布了2022年的十大科技趋势预测,其中提到,「隐私计算技术备受关注,将成为数据价值释放的突破口和构建信任的基础设施」
alt

所以从整个政策层面与行业巨头的布局方面,可以清晰的看出隐私计算行业未来的重要性,未来一片光明。所以对于隐私计算的前景,大家真的不必过多担心。

三 隐私计算概述

隐私计算本质上是在保护数据隐私的前提下,解决数据流通、数据应用等数据服务问题,在保证数据提供方不泄露原始数据的前提下,对数据进行计算、分析与建模的一系列信息技术,涵盖数据的产生、采集、存储、计算、应用、销毁等数据流转的全生命周期。说得更通俗一些,就是在保证数据安全的前提下,让数据可以自由流通或共享,消除数据孤岛问题,从而释放更大的数据价值,提升生产效率,推进产业创新。

3.1 隐私计算发展简史

2016 年发布的《隐私计算研究范畴及发展趋势》正式提出“隐私计算”一词,并将隐私计算定义为:“面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。”

技术演进路线
技术演进路线

如上图所示,隐私计算的概念大约在1995欧盟提出《数据保护指令》的时候首次提出,并且在之后的日子里面不断的有新的法律法规与行业技术的出现,基于隐私组件技术(同态加密、秘密分享、混淆电路等)基础技术,衍生出多方安全计算、TEE可信执行环境与联邦学习等隐私计算赛道,尤其是联邦学习,基于其隐私与性能的平衡,通过多方联合建模的方式,在多个场景落地应用,并且产生了巨大的价值。

3.2 隐私计算技术路线

隐私计算的理念包括:”数据可用不可见,数据不动模型动“、“数据可用不可见,数据可控可计量”、“不共享数据,而是共享数据价值”等。这门技术是门综合性非常强的领域,涉及到众多方向,比如密码学、数学、大数据、实时计算、高性能计算、分布式、传统机器学习框架与算法、网络安全体系、计算机体系结构、数学领域、深度学习框架与算法、隐私计算基础技术(差分隐私、秘密分享、混淆点、不经意传输等。)等等,整体技术非常复杂,是多个技术领域的集大成者。

可以说是对从业者的综合素质要求极高,如果都掌握或者掌握多项当然是好事,但是从笔者的面试情况基本不太可能(但是尽量在保证深度的同时,多点开花,最难的事情才是最优意义的事情),所以务必确保在其中的若干领域进行精进,其余的领域做到了解、熟悉甚至掌握。

根据目前市场上隐私计算的主要相关技术特性,整体总结可分为三大方向与五大基座

alt
  • 三大方向
    • 方向一:安全多方计算
    • 方向二:TEE -- 基于硬件的可信执行环境
    • 方向三:联邦学习
  • 五大基座:
    • 基座一:隐私计算基础组件,包含同态加密、秘密分享、不经意传输、混淆电路等;
    • 基座二:传统的安全机制,包含网络安全、主机安全、破解与反破解(横向联邦需要端侧计算的能力,需要安全防护)
    • 基座三:机器学习能力,传统机器学习与深度学习的算法与框架能力
    • 基座四:工程架构,分布式、高并发、大数据、实时计算等
    • 基座五: 数学与密码学知识,传统学科知识,例如数学、统计学习、密码学等;

3.3 隐私计算的人才构成

alt

隐私计算是新兴的领域,有很多难题需要解决,只有掌握了充足的知识储备,才能在这个隐私计算的盛宴中绽放出绚丽的色彩。在隐私计算的领域中,主要是存在两个流派,一个是密码学流派,一个是机器学习流派。密码学流派依托于密码学相关知识,以密码学理论为基础,结合工程实践进行探索,主要应用方向在多方安全计算领域;机器学习流派主要是依托于传统和深度机器学习,并且结合密码学相关理论与分布式并行计算方案进行探索,主要应用方向在联邦学习领域。

下面分别针对两个流派提些发展建议。

  • 机器学习从业者(联邦学习方向):
    • 平台方向:建议机器学习从业者,掌握下密码学的相关知识(基座一、基座二和基座五),并且掌握算法的底层原理,才能从底层实现中进行隐私加密的保障。
    • 算法方向:基于联邦学习平台,进行联邦学习建模,如果仅仅是进行业务建模,其实本质和搜广推等场景的算法工程师区别不大。
  • 密码学人士:
    • 如果不是从联邦学习方向,基本无需掌握ML技术,可以拓展下基座四的能力。

3.4 隐私计算的发展模式

alt

这五大基座技术都在隐私计算的三大方向中有所使用,是整个隐私计算体系的基石。但是普通人很难对所有的领域都有所涉猎,建议掌握一至两门自己擅长的领域,对于其他的领域逐步的熟悉与理解,技术都是相通的,一些思路与理念可以复用

从上面的描述中,可以看出隐私计算是一门非常多学科交叉的领域,真正要做到顶尖是非常困难的,因为目前的职场模式基本都是专才,很少有通才,专才有专才的好处,通才有通才的益处,通才的意义在于能这个多学科的交叉领域,在探索的过程中,基于其更加全面、更加符合实际情况的考量,设计出最可行、最优雅的方案,将隐私计算的多个部件进行有机的组合,绽放出最大的价值。

  • 通才的意义在于能这个多学科的交叉领域,在探索的过程中,基于其更加全面、更加符合实际情况的考量,设计出最可行、最优雅的方案,将隐私计算的多个部件进行有机的组合,绽放出最大的价值,难点在于如何将各个领域都做到精通。
  • 专才的好处在于在有限的时间内,对于特定的领域进行加深加强,可以在一点进行突破。难点在于需要跨领域的时候,会比较麻烦,无法很好的设计整体的方案,这个时候需要多个跨领域的人才进行集体智慧了。

但是我强烈反对通才不专的说法,通才也可以每个领域都很深入,这个取决于个人,也取决于时间+勤奋。由于我在互联网行业已经十多年了,跨过多个领域,所以我对自己的要求是做各个领域专才的集合,也就是通才。

正所谓下最笨的功夫,可以才能走的更加稳健,所以建议大家都不要给自己设限,在精通一门的同时,其他的逐渐进行兼顾,尤其是公司里面的隐私计算的领导者,更需要从知识的深度和广度都进行加强。进而设计出更加可行、更加优雅、更加高效的方案,推动隐私计算技术的发展。

其实无论走什么方向,都要做精,本着吃苦的精神,脚踏实地,一步一步坚实的走过每个山头,到最后回首一望,所过之路,皆是坦途!与诸君共勉!

五 公众号文章导读

公众号里面已经积累了不少的文章,并且根据隐私计算的「五大基座、三大方向」进行分类阐述,下面对公众号文章进行导航总结,方便大家阅读,共同推进隐私计算行业的发展,为隐私计算发展略尽绵薄之力。

六 番外篇

个人介绍:杜宝坤,隐私计算行业从业者,从0到1带领团队构建了京东的联邦学习解决方案9N-FL,同时主导了联邦学习框架与联邦开门红业务。 框架层面:实现了电商营销领域支持超大规模的工业化联邦学习解决方案,支持超大规模样本PSI隐私对齐、安全的树模型与神经网络模型等众多模型支持。 业务层面:实现了业务侧的开门红业务落地,开创了新的业务增长点,产生了显著的业务经济效益。 个人比较喜欢学习新东西,乐于钻研技术。基于从全链路思考与决策技术规划的考量,研究的领域比较多,从工程架构、大数据到机器学习算法与算法框架均有涉及。欢迎喜欢技术的同学和我交流,邮箱:[email protected]

七 公众号导读

自己撰写博客已经很长一段时间了,由于个人涉猎的技术领域比较多,所以对高并发与高性能、分布式、传统机器学习算法与框架、深度学习算法与框架、密码安全、隐私计算、联邦学习、大数据等都有涉及。主导过多个大项目包括零售的联邦学习,社区做过多次分享,另外自己坚持写原创博客,多篇文章有过万的阅读。公众号「秃顶的码农」大家可以按照话题进行连续阅读,里面的章节我都做过按照学习路线的排序,话题就是公众号里面下面的标红的这个,大家点击去就可以看本话题下的多篇文章了,比如下图(话题分为:一、隐私计算 二、联邦学习 三、机器学习框架 四、机器学习算法 五、高性能计算 六、广告算法 七、程序人生),知乎号同理关注专利即可。

alt

一切有为法,如梦幻泡影,如露亦如电,应作如是观。

本文由 mdnice 多平台发布

;