Time:2021-12-10 Click:1056
《个人信息保护法》已正式实施,而其对于社会各行业的影响还在持续发酵中,首当其冲是数据生命周期相关行业,不仅要对照个保法对既有做法进行调整与整改,更要承担起提供行业基础设施,引领全社会数据行业创新发展,提供解决方案的重任。其中有挑战,更孕育着大量机遇。在此过程中不可忽视的一个技术领域就是隐私计算。
隐私计算是数据“可用不可见”的唯一解决方案《个人信息保护法》对个人信息在收集、存储、使用、加工、传输、提供、公开、删除的生命周期各环节提出了原则要求,在解释个人信息概念时提到“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。”我们据此可以理解,匿名化处理后的信息不属于个人信息,不需遵守个保法的相关规定。这令我们想起了数据在传输和使用环节“可用不可见”的指导思想,同样体现了匿名化的原则。如何实现数据传输的“可用不可见”和匿名化?隐私计算是当前唯一的解决方案。
何为隐私计算?
隐私计算是“隐私保护计算”(Privacy-preserving computation)的简称,根据“大数据联合国全球工作组”的定义,这是一类技术方案,是“在处理和分析计算数据的过程中能保持数据不透明、不泄露、无法被计算方以及其他非授权方获取”的一系列技术方案的统称。根据中国信息通信研究院云计算与大数据研究所的定义,隐私计算是在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。大数据联合国全球工作组成立于 2014 年,由 31 个成员国和 16 个国际组织组成。早在 2018 年,工作组就致力于促进各国多个统计局相互进行敏感大数据协作,是最早研究隐私计算的国际组织之一。2019 年,该工作组出台了《联合国隐私保护计算技术手册》,以方便各国统计局以安全适当方式访问新的 (敏感)大数据源。隐私计算的技术方案或技术路径有很多:差分隐私、同态加密、多方安全计算、零知识证明、可执行环境、联邦学习等,Gartner公司将上述技术路径重新归纳为三类:
1.提供可信的环境来执行处理或分析;2.在处理或分析之前转换数据和/或算法;——数据加密再处置;3.在不公开数据的情况下执行数据本地处理或分析;——数据不动模型动;这便是可信执行环境、安全多方计算和联邦学习三大技术路径的由来。
隐私计算的作用?
隐私计算市场将在承接原有三方大数据市场基础上,进一步激活全社会数据要素,实现“点到点”的“数据可用不可见”。因此,隐私计算承担起《个人信息保护法》要求下数据传输环节的基础设施或基础工具的职能角色,具有巨大发展前景。
当前,我国的个人信息数据主要掌握在行业垄断型企业、头部互联网平台、政府部委和各级政府委办局、数据代理商手中,个人并不实际掌握自己数据的使用权。由于无法控制上述机构创建和使用个人自有数据,个人的数据所有权也很难主张。某些非国有机构,将其收集的数据看作企业自身资产加以运营,使用方式肆无忌惮,未考虑个人隐私保护,出现了大量市场乱象。《个人信息保护法》出台后,上述乱象方才有所收敛。但由于个人数据的使用主动权尚掌握在B端企业手中,导致数据利用主观动因存在“不愿”、“不敢”、“不便”的痛点与难点。
不愿——数据明文传输方式下,数据源头企业担心丢失数据所有权,这对于不具备持续生产源数据能力的企业表现尤其明显。客户对一家企业的产品或服务的粘性越差,企业对于持续获取流量或数据的信心越发不足,越发担心流量或数据被它人清洗所用。除此以外,由于数据复制成本极低,一旦分享出去就容易失去了对数据的控制权,因此数据明文获取削弱了源头厂商的数据稀缺性和分享动力,导致出现数据价值递减风险。类似情况常发生在业务类型相近的同体量企业之间,例如头部的互联网企业之间数据交互非常少见。
不敢——往往因互信不足导致,这类情况最为常见。合作双方或因合作目的不单纯,或不清楚对方数据来源及使用的合规程度,或是不想暴露自身客群画像等原因,缺乏合作诚意导致合作失败。再有大量企业因为担心数据安全事件或信息泄露而不敢交互数据。类似的情形常见于数据需求方(如银行)与三方数据公司、消费贷联合贷款合作双方、数据源头公司(如国资背景平台)与数据代理公司等。
不便——在涉及高度涉密数据或敏感个人信息隐私数据时,企业往往拿不准数据输出尺度。更常见的是一些国有企业、事业单位手握大量数据,但因缺少专业认知、能力及相应激励,缺乏数据交流的主动性。如医疗研究机构很难从医院等医疗数据拥有方获取病患数据,再如基于个人客户地理位置的数据应用与交互等。
产生上述问题的根本原因是数据的明文传输,由于合作双方可通过明文数据推演出对方数据资产状态,获得客户触达方式和敏感隐私数据甚至攫取对方流量资产,由此引发的敌意、不信任、不放心会极大影响数据交互双方合作意愿,进而影响了数据要素的流通与价值的盘活。
解决数据信任度问题其实有两个思路:一是寻找信任中介,二是用科技手段实现加密和保密。第一个思路与银行等信用中介的产生机理相同,既然数据交互双方相互不信任,那就找一个双方都信任的第三方代为处理数据,并将数据交互结果以不透露个人及合作双方隐私的方式返回。征信牌照、大数据交易所就是这个思路。统一信任中介的实现方式需要大量的顶层设计以及制度和强制力的保障,但即便如此还是存在诸多缺陷。例如,如何解决数据提供方的激励问题,以更大程度激活散落各地的“数据孤岛”;再有,中心化一定意味着数据的标准化、统一化处理,由于每个行业或领域的数据结构的特殊性,需要建立多个行业或领域的数据统一标准,复制性差,现实可行性不高;其次,中心化的数据处理方式难以满足个性化业务需求,且交互效率往往较低,升级迭代和数据维护成本过高。
第二个思路可以统称为隐私计算,是利用技术手段实现数据不透明、不泄露和不可反推复原,可实现“点对点”的数据交互。针对匿名化问题,隐私计算由于可以控制原始数据不出本地,只输出切片、标签化、脱敏后的梯度和参数等信息,从而成为满足匿名化“不可识别、不可复原”。这个前提下,也自然满足“最小必要原则”,同时以匿名化为基础的联合建模也会大幅减轻参与双方获得用户重复授权带来的负担。隐私计算原始数据不出域、只传递梯度等数据的特指也有助于满足《数据安全法》和《网络安全法》等要求的安全保护义务,也有助于控制数据泄露的风险,进而减轻数据主体的顾虑,充分挖掘数据的流通价值。
与中心化信任中介相比,隐私计算适配性高,通用性强,使用方式只因数据类型及交互目的的不同而不同,不受行业或场景限制(数据交互的目的可以抽象归纳为求交集、特征工程、联合统计分析、匿名查询、联合建模等少数几种)。“点对点”对接降低了数据互联互通成本,整体上有利于数据供给侧汇集的丰富度和覆盖度;同时,“点对点”的交互方式效率更高、支持个性化需求,如辅以较好的激励机制,更容易挖掘、盘活“碎片”数据资产,进一步激发、激活数据数据市场活力。
隐私计算与行业或区域数据信任中介的发展思路并不冲突,在明码交易导致数据泄露后果愈发严重的当下,数据信任中介也需要运用隐私计算技术解决自身安全问题。由于数据信任中介(如征信牌照或大数据交易所)只是数据的行业或地域集中,不同行业、地域之间同样存在不信任、不愿的负面因素,甚至信任中介主体股东背景、做法等多种因素会导致其客观中立身份存疑,也会影响数据供给方的接入意愿。
春天有多美?
从隐私计算应用领域看,目前主要应用在金融行业,并少量辐射地方政务数据和医疗行业。个人判断,未来1-2年,隐私计算将全面承接原有的三方大数据市场,成为该领域的基础设施。其中涉及金融行业中征信应用的部分,受《征信业务管理办法》影响,持牌机构将占领市场主导。对于非征信的数据应用,如客户识别、数据营销、精准运营、辅助催收等领域,基于隐私计算的“点对点”数据交互方案将具有较大市场空间。
至于市场空间,在腾讯银行和毕马威联合发布的《隐私计算行业研究报告》中预测,我国隐私计算系统的销售和服务收入规模在三年之内有望触达100-200亿元的市场空间。我们采用另外一个逻辑推算。仅以数字风控广泛应用的线上消费贷和信用卡贷款市场为例,2020年我国银行业信用卡放贷总额约为19万亿元,银行业个人消费贷款全年放款总额约6.5亿元(含互联网平台助贷和联合贷),合计25.5万亿元。按照数据及附加费用在放款额中占比千分之五的保守比例推算,隐私计算和数据费用加总收入可实现125亿元收入。我们假设隐私计算在其中收入分成为10%,仅个人线上消费信贷和信用卡两个领域,未来1-2年就会为隐私计算带来数十亿元的市场空间。
本人则对隐私计算的长远发展潜力更为看好,伴随数据这一生产要素在我国经济社会资源匹配中的作用的进一步发挥,作为基础设施和必选工具的隐私计算技术将深入渗透至政务、医疗医药、线上服务营销、辅助催收等行业,将会广泛应用于各行各业的线上数据交互环节。未来十年极有可能发展成为千亿级规模市场。
与此同时我们注意到,隐私计算技术很难形成一个独立市场,其一定是与数据源市场强绑定,还可能与区块链技术、边缘计算技术充分融合,发展形成一整套数据交互产品体系。我们知道,隐私计算有三大技术路径,分别是多方安全计算(MPC)、联邦学习(FL)和可信执行环境(TEE),下面分别介绍。
多方安全计算
多方安全计算(Secure Multi-party Computation,MPC)是中国人的骄傲,由姚期智院士1982年提出并解答百万富翁问题时创立,是现代密码学的一个重要分支。MPC是指在无可信第三方的情况下,多个参与方共同计算一个目标函数,并且保证每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出其他任意一方的输入数据。
MPC是基于密码学的算法协议来实现隐私计算目的,可以看作多种密码学基础工具的综合应用,凡可用于实现多方安全计算的密码学算法都可以构成多方安全协议。除秘密共享、不经意传输、混淆电路、差分隐私等密码学经典计算协议外,同态加密、零知识证明等密码学算法都可以构成多方安全计算协议。为解决特定问题(如联合统计、联合查询、联合建模、联合预警等),不同的技术人员或公司有时会采用不同的算法设计多方安全协议,虽然都属于多方安全计算范畴,但技术性能和优劣势有所差异,需要结合问题具体分析。MPC可与可信执行环境等硬件隐私计算技术结合进一步强化安全性。
MPC特点和优劣势如下:
MPC具有很高的计算安全性,要求中间计算结果也不可泄露,经过大量学术界、工业界的检验,可信性很高。MPC技术包含复杂的密码学操作,计算开销大,性能损耗大;效能往往受到网络带宽、延迟等因素制约;采用硬件加速技术或与TEE技术结合是提高性能的主要手段。
不同安全计算协议下的加密数据不互通,协议间兼容性不强。从实际使用情况看,商用化落地程度较高的计算协议是秘密共享和同态加密。秘密共享计算效能比较高,应用产经范围广,但无法解决数据缺失值、非连续数据标签等问题,需要花费较大精力、按照一定标准进行事前数据治理。同态加密对数据不挑剔,但受限于计算因子数量,只能完成较为简单的计算操作,对于联合建模等复杂工程适用性不强,应用场景受到一定限制。除此以外的不经意传输、混淆电路、零知识证明等算法均存在较大的实操问题,实际应用较少。
联邦学习
联邦学习是一种新兴的人工智能基础技术,最早于2016年谷歌提出,后经香港科技大学和微众银行杨强教授团队扩展为B2B分布式联合建模架构,进而发展成为当前数据安全环境下不同机构间联合建模的主流技术。
联邦学习(Federated Learning,FL)的核心原理是:由每一个拥有数据源的机构训练一个模型,而后将各自模型相关信息(模型的权重更新和梯度信息)采取加密的方式反复交互优化,最终通过模型聚合得到一个全局模型。已训练好的联邦学习模型不共享,分别置于各参与方,在实际使用时共同配合形成预测。上述过程,每一个参与方拥有的数据都不会离开该参与方,其特点可以总结归纳为“数据不动模型动,数据可用不可见”。
根据参与方数据的特征空间和样本ID空间分布情况不同,联邦学习分别有三种方法予以适配:纵向联邦、横向联邦和联邦迁移学习。如各参与方数据特征是对齐的,但数据样本重合度不高,横向联邦学习较为适用;如各参与方数据样本是对齐的,但数据特征重合度不高,纵向联邦较为适用;如数据样本和数据特征重合度都不高,联邦迁移学习更为适用。
为增加联邦学习的安全性和隐私保护,多方安全计算、同态加密和差分隐私等保密算法也被融合进联邦学习,应用于防范重构攻击、模型反演攻击、成员推理攻击、特征推理攻击等安全事件。FL也与可信执行环境等硬件隐私计算技术结合进一步强化安全性。
FL特点和优劣势如下:
因联合建模而生,因此在多方复杂计算和预测场景中应用广泛。最大优势是数据不出域,仅是模型计算信息交互,且同样运用多方安全等加密算法,市场接受度高。各参与方服务器之间反复沟通对通信连接稳定性和带宽提出较高要求。相较于明码交互下的模型效果略差;有时不同参与方数量不均的训练样本或数据间非独立同分布等情况,可能会导致模型效果偏差甚至训练失败。恶意破坏建模会损害整个系统及模型性能,甚至深度参与方对梯度的恶意反推会带来隐私泄露风险。
可信执行环境
可信执行环境(Trusted Execution Environment,TEE),通过软硬件方法在中央处理器中构建一个安全区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。可信的中央处理器一般是指可信执行控制单元已被预置集成的商用CPU计算芯片,无法后置,因此,只有新研发的部分芯片支持TEE。目前主流的TEE技术以X86指令集架构的Inter SGX和ARM指令集架构的TrustZone为代表,国产芯片厂商如兆芯、海光、飞腾、鲲鹏起步稍晚,芯片处理性能略差。
TEE基础原理:将系统的硬件和软件资源划分为两个执行环境——可信执行环境和普通执行环境。两个环境是安全隔离的,有独立的内部数据通路和计算所需存储空间。普通执行环境的应用程序无法访问TEE,即使在TEE内部,多个应用的运行也是相互独立的,不能无授权而互访。
TEE特点和优劣势如下:
与MPC和FL纯软件的解决方案相比,TEE不会对隐私区域内的算法逻辑语言有可计算型方面的限制,支持更多的算子及复杂计算,可实现联合统计、联合查询、联合建模及预测等多种计算,业务表达性更强。利用TEE计算度量功能,可实现身份、数据、算法全流程的计算一致性证明,解释性和逻辑可信度高。支持多层次、高复杂度的算法逻辑实现,运算效率高。硬件的可信度是中心化的,芯片设备厂商声誉及产品安全的可信度决定了技术路径的可信度。基于国外芯片的TEE解决方案会遇到信创挑战,硬件的升级改造相比软件成本更高。目前的TEE解决方案尚未完全解决侧信道攻击问题,为进一步提高安全性,TEE常结合多方安全计算等密码学算法来实现加密。
三条技术路径的分析与展望
一、三条技术路径的融合发展和综合运用是大势所趋
三条路径各有优势和擅长领域,现实中我们看到的大致趋势是:MPC较多运用于联合数据分析与统计、建模初期数据对齐与准备、联合查询与拒绝等数据策略应用等环节;FL在多方数据的深度交互与应用的联合建模环节占领主导地位,但出于安全保密需要大都结合MPC加密技术进行升级改造;而TEE为解决自身硬件安全问题也有必要与软件解决方案结合提高安全保护系数。从实操方面看,三者两两融合的产品应用形态已经出现。
没有绝对的数据安全,只有相对的数据安全。三条路径作为数据安全的防护和加强手段,始终伴随着攻击和破解手段的不断升级而自我革新与相互融合。实际上,三条技术路径只是很多加密算法和技术手段的汇总叫法,具体算法和技术都有公开论文甚至开源代码,之间的交叉应用对于专业人员来说门槛并不高,具体结合已经十分普遍。以至于Gartner(高德纳,全球最具权威的IT研究与顾问咨询公司)将集成三种技术路径组合运用的隐私增强计算(PET)列为2020年隐私技术成熟度曲线,并认为其构成了未来几年的一致性发展趋势。
二、行业呼吁技术互联互通,短期内多方集成是首选路径
技术互联互通主要是指各隐私计算厂家产品之间。虽然隐私计算能够融通数据孤岛问题,但是不同厂家之间、不同技术平台与路径之间由于相互不兼容,反而产生了技术孤岛问题。比如国内外知名的开源项目各自发展,互不兼容,不同厂家之间更是如此。因此,行业普遍呼吁技术互联互通。该项工作主要由信通院(中国信息通信研究院)下辖的“隐私计算联盟”牵头主导。
跨平台的技术互联互通当前主要解决各平台自治带来的异构性,如信任基础不一样(包括对管理方法的信任和对技术方法的信任),平台之间身份认证体系不统一,以及各平台使用的技术方案和计数原理不相同等。解决跨平台技术互通互联问题首先需要解决不同技术路径的行业技术标准问题,据了解,信通院已开始组织实施标准制定工作。
即便如此,行业的互通互联还存在合作意愿问题,应该是一个漫长的过程。短期内,针对需求方的现实可行的解决方案是多方集成。多方集成是指将多个产品解决方案集成于一处,为数据或模型需求方提供一体化解决方案,解决其因数据锁定技术路径或不同路径普遍尝试等带来的多头采购或重复采购问题。
多方集成有两个思路:一是云端集成,鉴于当前云市场主要厂商阿里系和腾讯系均有自研的隐私计算产品,因此是否开放集成,准许同台竞争存在未知,可以关注华为云的市场布局。二是硬件集成,由于技术融合出现硬件化的发展趋势使得硬件集成更具现实操作性,紧贴客户侧的软硬件集成厂商可以整合隐私计算产品于一套硬件设备,甚至可以整合产品界面进一步提升操作体验。多方集成孕育着巨大商业机会,可能成为隐私计算商用化的重大推手。
三、基于硬件的隐私计算发展赛道更加性感,理由如下:
从技术发展趋势判断,隐私计算终将走向软硬结合的发展道路。当下有两个趋势:一是受计算效率、性能等因素影响,MPC和FL出现加速硬件的解决方案;二是随着国产芯片性能的不断提升并支持可信环境协议,基于国产芯片的TEE解决方案已经出现,并必将因其理念易接受、计算效能高等特点在市场竞争力占领一席之地。
作为目前唯一的硬件解决方案,其与MPC和FL的技术融合和场景应用均不冲突,可以相互加强。拓展了国产芯片的应用范围和产品生态,助力信创产业的振兴发展。
随着民众数据保护及维权意识的不断提高,基于物理设备终端计算的数据不出域将成为未来数据存储与使用的常态。而分布于海量终端的、分散的、高并发的“边缘计算+隐私计算”是可靠解决方案。这一方案是以终端设备硬件计算能力为依托的,这也正是TEE被广为看好的主要原因。
四、从行业应用看,数据传输的合规性改造是主要市场切入点
毋庸置疑,金融行业是目前数字化、商业化运行程度最高的行业之一。目前以数据模型驱动的线上风控、智能营销为主的三方大数据市场已经形成了百亿元的市场规模。《个人信息保护法》的出台对现有数据存储、使用、管理尤其是传输交互形态进行了重新定义,输出传输的合规化改造成为行业普遍痛点问题,亟需行之有效的解决方案。除此以外,数据治理和数据中台建设是隐私计算的基础,隐私计算也可以融进数据治理项目或数据中台建设项目中,为数据需求方提供进一步解决方案。
五、数据源头厂商的覆盖度是隐私计算厂商的核心竞争力之一
数据传输涉及供给方和需求方,当前所有隐私计算技术方案均需进行数据治理并部署加密节点。因此,仅提供隐私计算加密解决方案无法满足需求方的全部需求,还需进一步引入可用数据源形成一站式解决方案。在此基础上,隐私计算安全性、计算效能、产品体验等产品性能固然是公司的核心竞争力,同时对可用数据源厂商的覆盖度,同样决定了隐私计算产品的可用性,是公司的同样重要的核心竞争力。