开放智能：科技公司对于数据安全和隐私保护的最新思考

时间：2021-08-11 10:42:22 作者： MM

最近一段时间，隐私计算成为了众多科技公司的研究方向，它或许将成为数据市场化的重要基础设施。

众所周知，数据的价值是在经济活动中信息交互所产生的——数据越流通，应用的场景越丰富，其价值会得到不断放大及提升。不过在数据流通过程中，我们必须时刻考虑数据安全与隐私保护问题。

不久之前，蚂蚁集团智能引擎与数据中台技术部负责人、IEEE Fellow 周靖人博士在世界人工智能大会 WAIC 2021「隐私计算学术交流会」上发表了题为《开放智能—数据流通下的数据安全和数据隐私》的演讲。

靖人从数据特性入手，对独特数据背景下如何做到数据安全、隐私保护，并发挥大数据应用的价值进行了讨论，同时也首次引入了「开放智能」概念，对于蚂蚁集团面向隐私计算的技术架构进行了一番介绍。

在活动中，蚂蚁集团的技术专家为我们展示了业内对于数据安全和隐私保护的最新思考。

数据特性与算法伦理

首先为什么需要数据流通，因为数据产生的场景与应用场景不尽相同——你可能会因为买了一杯咖啡而产生了数据，但这些行为数据，包括购物习惯、生活习惯等会被应用在其他的场景中。数据只有在更多的场景中实现应用，其价值才能得到不断扩展。

在数据流通的过程中，我们免不了会思考两个深层次的问题：数据权属和算法伦理。

我们可以把数据分成两类，一类是个人的基础数据，比如性别，年龄等，这些数据归属于个人是没有太多异议的，另一类是行为数据，这类数据的产生涉及到多个数据主体：消费者是一个行为主体，同时商品、服务也是行为主体，还有一方涉及到平台，后者通过观察消费者和商品之间的一系列关系，再基于平台自身的知识，把相互的行为数据记录下来。

可以看到，行为数据的产生涉及多个主体，我们很难把行为数据分割成服务信息或个体信息，同时行为数据的产生还涉及到平台的知识产权和劳动成果。在数据流通的过程中，我们需要合理分配和保护所有主体和数据参与者的权益。

站在消费者角度，我们思考如何保护自己的隐私，并通过数据分享为自己带来更多的方便。同时在平台角度，基于大数据的算法需要大量技术投入，在数据流通的过程中，我们也希望能够保护平台方的知识产权和劳动成果，当然也需要平台依法接受监管。

还有一个非常具有挑战性的问题，我们称之为算法伦理：应用数据后对算法产生的影响。这个范畴包括了可解释性、公平性、以及一系列的隐私保护。

如今大量的应用使用了基于人工智能的算法，我们需要思考如何把社会学、经济学的思考映射到数学模型和算法方面。

例如我们会发现：可解释性和隐私在某种程度上存在矛盾。AI 模型的可解释性需求往往是把一些模型的决策点一定程度上暴露出来。但随着模型决策点和边界条件的可视化，人们的隐私信息也在某种程度上面临着暴露。很多时候，从模型的推断结果可以反推一些人的基本属性——所以如何权衡这个问题，也是当下我们需要研究的重要课题。

不过，可解释性和算法公平性又存在相互促进的关系。随着算法从一个黑盒变成白盒，慢慢引入可解释能力，我们将逐步消除 AI 算法中的潜在歧视。

数据开放流通的三个层次

讨论完数据权属和算法伦理之后，我们来看看如何在数据流通中去解决上述问题。

数据的流通可以简单归纳为三个层次：

第一层：仅涉及到个人数据的生产和融合，仅仅是一个个体或平台，或平台通过观察的方式积累个人行为数据。今天人们在电商平台，或聚合新闻平台、短视频应用等，都属于这样的场景。

第二层：机构之间数据的互相交流，比较典型的例子是银行通过用户信息的流通不断提升风控能力，避免系统性风险。

第三层：数据流通的生态，在理想情况下应该存在多个数据的提供方，以及多个数据的消费者，这中间有一系列的机制来保证数据隐私与安全，同时也能提供更好的数据服务。

在现阶段我们主要需要探讨前两个层次的技术。

首先是个人数据生成和融合。这类场景会涉及到数据采集、模型训练，技术人员需要思考如何从数据挖掘核心信息，产生个性化模型，模型推理的结果会影响决策。这是一个比较长的链路，需在整个过程中关注如何保护个人隐私。保护往往需要从产品设计就开始考虑，并贯穿在产品的全生命周期中去。采集过程需以最小集采集为原则，而不是随意的、无明确范畴采集，这方面要引入差分隐私、数据脱敏等技术。在建立模型后，还需进行验证，确保模型可信——这方面有差分隐私可解释性的技术。

当前的互联网正在进入云端协同的新阶段，消费者的行为通过手机或电脑在端上发生，模型很多在云上进行大规模机器学习训练产生，这样的体系被我们称为云端协同。

在这个过程中，我们若想做到隐私保护，需要在端上实现理解用户的行为的同时，去做初步的数据筛选、数据清洗等等工作。清洗后的数据再到云端融合其他数据，产生新的模型计算。整个过程当中，云端系统并没有存储用户的行为，这种模式的真正应用能够为消费者提供更好的权益。

最典型的形式是联邦学习，它可以说是一个分布式学习框架，在数据采集后采用不出域的原则，也就是我们今天可以把很多原型计算放到端侧设备上，通过协同方式去创建联合学习模型的方式。在这个过程中我们也可以通过差分隐私、可信执行环境等技术去加强数据保护的能力。

机构之间的数据开放互通，通过各机构之间信任关系、网络状态、数据量以及模型复杂度等方式，可分为下面几个类别：

最直接的是集中式模式，也就是数据各个机构、参与方能够把数据汇总到集中式环节里进行模型训练，进行整个认知智能的探索。或使用一个特定的小集群来提供高效的数据融合，后者的好处是效率高，数据融合在一个主体，就可进行非常复杂的计算，它面临的挑战是如何搭建起可信环境。所以在实践中，我们经常会采用中心化模式。

去中心化模式中，所有的模型训练是分布式执行：数据提供方也是计算参与方。通过多方的协同来进行联合训练、联合学习。技术就会涉及到多方安全计算、同态加密等。在计算过程中做加密虽然带来了安全性保障，对性能也提出了很大挑战。该模式可做到安全可证，但同时会为性能付出代价。

集中式模式和去中心化模式之间还有一种中间状态，即联合计算模式。这个模式里，每方都会参与到模型计算，同时再引入中心化模块概念，其可以协调计算、模型训练。这里具有代表性的是联邦学习，拆分学习等，都属于联合计算学习框架。在这个框架中，我们需要通过差分隐私来保护各个模块与中心化模块之间的通信。以信息论为基础，我们可以度量任何信息交互所可能带来的个人隐私风险，也就是说个人隐私在联邦学习环境中计算所带来的一系列风险是可度量的。

所以，我们可以把机构之间信息的开放、流通，可归纳为可信、可证、可度量的环境。

开放智能技术

如何把上面讨论的内容形成体系化的技术框架，去解决数据流通过程中遇到的各种问题，保证在各种复杂场景中数据的安全及隐私保护呢？

这里引入一个新名词：开放智能，指的是用于解决数据开放流通过程中所面临的一系列问题的前沿技术的统称。这个领域非常复杂，技术也非常具有挑战性——在开放智能中，我们会面临多个数据主体，包括个人、企业，甚至政府，每一类主体的意愿、诉求都各不相同。个人层面想做到隐私保护，企业诉求是希望保护自己的知识产权和劳动成果。政府首先关注社会利益。同时还会涉及到如何激励开放的意愿，同时避免数据歧视、算法垄断等。

我们可把开放智能的技术分为五部分：

首先是是底层的数据技术，主要用于解决数据授权的问题。

其次是计算技术，包括可信计算、可度量计算、可证计算，用于解决计算过程中的隐私保护问题。

第三层为算法层，解决合规合法、算法伦理、鲁棒性等算法可信赖的问题。

在此之上还有市场构建，需要思考如何通过激励机制、定价等，促进形成良好生态，解决数据流通过程中的效率问题。

最后是可验证技术，当模型训练好之后，我们需要确保模型实现的的确是我们需要它做的事情。

蚂蚁推出了隐私计算框架——隐语，这是蚂蚁集团经过多年独立自主研发和业务应用打磨而构建的一套统一框架，旨在解决数据价值的安全流动这一行业难题。

该框架有两个层次，上面一层是编译器，通过新的编译器技术，我们可以将整个执行图自动编译成密态计算图，并对其进行一系列的优化。下面一层是分布在不同参与方的 PPU(Privacy Preserving Unit)，每一个 PPU 提供可信可证可度量的基础计算能力。由编译器生成的密态计算图会被分发到 PPU 上进行计算，最终产出用户需要的计算结果。

蚂蚁集团的隐私计算技术架构——隐语，具有以下几个特点：

可扩展性，支持当前主流的机器学习的框架，上层可对接包括 TensorFlow、Pytorch、JAX 在内的多种主流机器学习框架，以及 SQL 前端;下层可以链接包括 SS、HE、GC 在内的多种安全协议。

隐私保护能力：支持包括可信安全、可度量安全和可证安全在内的多种隐私计算能力。

计算效率：目前隐私计算最大的问题在于性能瓶颈，蚂蚁集团对框架做了多方面的优化，包括 Platform + PPU 的双层设计可以提供分层优化能力，可以提供业界顶尖的计算性能和计算规模。

开放智能的应用

这样一套隐私计算体系目前已经获得了应用，一个的典型的场景是在个人信贷上。

人们在银行办理贷款时，银行为了降低风险，往往会参考用户之前在银行系统中进行过的各类操作，包括购买的基金、金融产品，日常消费流水等。系统完整的分析结果会帮助我们提供更好的数据的服务，但这个过程需要全链路、健全机制的保障，需要在用户授权的情况下进行分析。

为实现上述效果，就会涉及到多方安全计算。在联合计算之后还需进行验证，以确保每个数据参与方真正完成了它所需要做的计算。当训练好 AI 模型后，因为不能是黑盒状态，需要实现可解释，还要面向消费者进行告知：为什么今天可以贷这么多款。系统也不能因为客户的性别、年龄就对用户区别对待，在这一环节也需确保算法是公平的。最后，还有非常重要的监管环节，要有存证、审计的能力。

开放智能是一个包含多领域知识的技术体系，涉及到了数据鉴权、隐私计算、可信赖 AI、市场机制等。这是一个崭新的领域，还有很多技术有待研究和创新。随着人们的不断参与，未来我们还将看到越来越多的新进展。

聚合标签：

安全软件

相关推荐

2023年315晚会回放在哪里能看_快速获悉315晚会复盘

2023年315晚会回放在哪里能看答：在哔哩哔哩电脑版中即可看到315晚会的部分回放及资讯。 315晚会是指每年3月15日晚播出的“3·15晚会”，该晚会…

更新时间：2023-03-14 | 作者：lc | 已阅读：5次 | 标签：视频播放器视频软件
2月购买爱奇艺会员为何只有28天_爱奇艺详细回应内容一览

爱奇艺客服称2月购买爱奇艺会员只有28天是因为会员月卡服务时间以自然月为统计单位，即月度权益自用户每个月的服务开通日期，根据开通当月自然月天数做顺延的。

更新时间：2023-03-03 | 作者：rw | 已阅读：11次 | 标签：视频软件爱奇艺视频
爱奇艺会员投屏恢复清晰度了吗_爱奇艺黄金VIP能看1080P吗

爱奇艺会员投屏恢复清晰度了吗从2月20日新修改爱奇艺会员协定上可得知，2月20日仍在有效期的黄金VIP会员，重新恢复了720P和1080P的视频投屏清晰度。…

更新时间：2023-02-21 | 作者：lc | 已阅读：12次 | 标签：视频播放器视频软件
显微镜下的大明是网剧么_显微镜下的大明电视剧类型介绍

显微镜下的大明之丝绢案电视剧是网剧，它是一部古装悬疑短剧，而该剧改编自马伯庸的历史读本《显微镜下的大明》六案中的“丝绢案”，讲的是明朝历代时期的事情。

更新时间：2023-02-17 | 作者：rw | 已阅读：31次 | 标签：视频播放器视频软件
一文看懂ChatGPT，火爆全网的它将给世界带来何种影响

最近大火的人工智能聊天工具ChatGPT在社交媒体上不断刷屏，一跃成为了火爆全网的现象级应用。在网友晒出的截图中，ChatGPT似乎无所不能，不仅能够流畅对话，…

更新时间：2023-02-16 | 作者：ZDH | 已阅读：135次
动物首次出现！绝地求生S22赛季更新了哪些机制

绝地求生在S22中，在雪地图“维寒迪”中首次加入了新生物“北极熊”；此外，S22赛季将“月夜天气”回归，还为该天气配备了“热成像4倍瞄准镜”；同时，该赛季还有地…

更新时间：2023-02-15 | 作者：wsy | 已阅读：158次 | 标签： steam
活动仅3天！2023情人节期间Steam热门游戏低至1.5折

经了解，Steam2023“血色情人节”活动的持续时间为：2023年2月14日凌晨2点-2023年2月17日上午2点；可以看出，该活动既是情人节活动，也是一个“…

更新时间：2023-02-14 | 作者：wsy | 已阅读：38次 | 标签： steam
ChatGPT如何帮助我们的生活_ChatGPT将如何改变我们的未来

ChatGPT如何帮助我们的生活 ①解决问题 ②写作文章 ③提炼内容 ④写代码

更新时间：2023-02-13 | 作者：lc | 已阅读：84次
ChatGPT网页体验入口在哪里_ChatGPT详细注册体验教程分享

①浏览器搜索【ChatGPT官网】并进入。②点击【TRY CHATGPT】，接着点击【Sign up】，输入注册邮箱。③点击邮箱邮件内收到的验证码，然后填入注册…

更新时间：2023-02-10 | 作者：rw | 已阅读：9576次
chatGPT和openAI是什么关系_chatGPT的出现意味着什么

我们通过网上的论坛、杂志等，可以知道chatGPT的应用有很多，但是chatGPT目前更多地被用于IT工作者的代码处理，以及学术论文的编辑与修正；因为这些需要工…

更新时间：2023-02-10 | 作者：wsy | 已阅读：725次
永劫无间2023网吧特权有哪些_如何查询有永劫无间特权的网吧

经了解，永劫无间的2023网吧特权主要分为“至尊网吧特权”和“（标准）网吧特权”，下面将分别给大家介绍永劫无间的2种网吧特权。永劫无间2023至尊网吧特权：…

更新时间：2023-02-06 | 作者：wsy | 已阅读：101次
鹅鸭杀是什么类型的游戏_鹅鸭杀为什么玩的人这么多

答：鹅鸭杀是一款休闲策略类社交网络游戏。其游戏玩法类似狼人杀和Among us的整合版本，将天黑请闭眼，盘凶手的狼人杀机制和做任务整活隐藏身份的Among …

更新时间：2023-01-26 | 作者：lc | 已阅读：21次 | 标签：网络加速器网游加速器
2023春晚能在抖音看吗_2023春晚在抖音上如何观看

答：2023春节联欢晚会可以在抖音上观看。

更新时间：2023-01-16 | 作者：lc | 已阅读：85次 | 标签：抖音视频软件
电视剧狂飙是改编的还是原著_狂飙有没有原型故事介绍一览

电视剧狂飙是改编的而并非原著，狂飙这部电视剧是根据真实事件改编的，是根据众多真实事件改编的。

更新时间：2023-01-16 | 作者：rw | 已阅读：2790次 | 标签：视频播放器视频软件
三体真人电视剧在哪里能看_三体真人电视剧还原度高吗

答：三体真人电视剧在腾讯视频可以观看。除了腾讯视频以外，央视八套、咪咕视频也可同时收看。目前在腾讯视频上，在1月15就首更了4集，除第1集免费外，腾讯视…

更新时间：2023-01-16 | 作者：lc | 已阅读：178次 | 标签：视频软件腾讯视频电脑版
三体国产电视剧何时上映_三体电视剧的具体上映播出时间详解

三体国产电视剧已经于2023年1月15日上映，该剧根据同名小说改编，讲述了纳米物理学家汪淼与刑警史强共同揭开地外未知文明“三体”世界的神秘面纱，并随全人类一道与…

更新时间：2023-01-16 | 作者：rw | 已阅读：97次 | 标签：视频播放器腾讯软件
哪款软件有泰国旅行最新攻略_全方位泰国旅行攻略软件推荐

哪款软件有泰国旅行最新攻略?在国内疫情逐渐趋于平稳之际加上节假日来临之际，不少人都已经按奈不住要出国门旅游的心，搜索了一大圈，入境政策较为轻松的还属泰国。因此春…

更新时间：2023-01-12 | 作者：lc | 已阅读：15次 | 标签：抖音视频软件
向风而行和去有风的地方是同一部剧吗_在哪里能免费观看

向风而行和去有风的地方是同一部剧吗?最近在全网热播的电视剧中，向风而行和去有风的地方的字样频频刷屏热搜朋友圈，一些还没看的小伙伴觉得这两个含义相近的剧名，会不会…

更新时间：2023-01-12 | 作者：lc | 已阅读：95次 | 标签：视频软件爱奇艺视频
告别低效率的传统办公工具，4款主流在线协作文档对比

对于职场人来说，每天都有如陀螺忙得转个不停。大家经常会抱怨工作苦工作累，但是仔细思考一下就会发现，之所以每天累得半死，除了工作多这个原因之外，很多时候是因为没有…

更新时间：2023-01-11 | 作者：ZDH | 已阅读：169次
去有风的地方在爱奇艺上能看吗_去有风的地方观看平台介绍

去有风的地方电视剧在爱奇艺上能看吗，最近有一部神仙姐姐刘亦菲和李现主演的新剧《去有风的地方》正在热播，这几部新剧的名字都带风呀。那么刘亦菲主演的《去有风的地方》…

更新时间：2023-01-05 | 作者：rw | 已阅读：605次 | 标签：视频软件芒果TV