数据交易或者流通涉及的安全技术有哪些?

摘要:随着数字化时代的到来,数据已成为企业和社会最宝贵的资源之一。然而,数据的交易和流通也带来了安全和隐私的挑战。为了解决这些问题,一系列核心安全技术应运而生,它们在保护数据安全的同时,也促进了数据的高效利用。本文将探讨这些技术如何在数据流通和交易中发挥作用。



  • 隐私计算:数据使用权与所有权的分离
  • 多方安全计算
  • 可信执行环境:安全的数据执行空间
  • 联邦学习:分布式的数据学习和模型训练
  • 同态加密:在加密数据上进行计算
  • 数据脱敏:去除敏感信息的数据利用
  • 数据加密:确保数据传输和存储的安全性





01

隐私计算:数据使用权与所有权分离


隐私计算是一种在不暴露原始数据的前提下,对数据进行分析和计算的技术。通过隐私计算,数据的使用权和所有权得以分离,用户可以授权他人使用数据进行计算,而无需分享数据本身。这不仅保护了数据的隐私,也促进了数据的共享和流通。


[隐私计算]是一种在保护数据隐私的同时实现数据分析计算的技术集合。它旨在确保数据在处理过程中保持隐私,同时允许数据的价值被有效利用。隐私计算涉及多个技术领域,包括但不限于[密码学]、[机器学习]、[神经网络]和[信息科学]。这种技术集合允许数据在不对外泄露的情况下进行计算和分析,从而实现数据的“可用不可见”。


技术手段:隐私计算主要包括[多方安全计算])、[可信执行环境](TEE)和[联邦学习]等技术。多方安全计算允许多个参与方在不共享原始数据的情况下共同进行计算;可信执行环境则通过在硬件层面提供安全保障;联邦学习则允许数据保持在原始设备上,仅模型参数在设备间传输,保护用户数据的隐私。

应用场景:隐私计算在金融、通信、政务和医疗等领域有广泛应用。例如,在金融领域,隐私计算使得金融机构能够在保护用户隐私的前提下,进行联合建模和数据分析,实现精准营销、风险控制等业务需求。

跨学科特性:作为一种跨学科技术,隐私计算结合了计算机科学、密码学、人工智能等多个领域的最新成果,为数据保护和价值转化提供了新的解决方案。


总体来说,隐私计算是一种创新的技术解决方案,它通过技术手段实现了数据隐私保护与数据价值利用之间的平衡,是数字经济时代保护个人隐私和数据安全的重要工具。


隐私计算可以通过可信执行环境(TEE,Trusted Execution Environment)也可以通过安全多方计算技术(MPC或SMPC,Secure multi-party computation)实现。安全多方计算技术则是基于密码学的多种技术纯软件实现的隐私计算。各参与方之间无需可信根,更加安全。但由于包含了复杂的密码学操作,相较于基于TEE的隐私计算而言,效率会低一些。




02

多方安全计算


多方计算(Multi-Party Computation,简称MPC)是一种密码学技术,它允许多个参与方在不泄露各自输入的情况下共同进行计算。MPC的核心思想是将计算任务分解成多个部分,然后让每个参与方只负责其中的一部分,并且在整个过程中不暴露自己的输入数据。


MPC的原理主要包括以下几个关键点:


1. 秘密共享(Secret Sharing):每个参与方将自己的输入分割成多个份额,并将这些份额分配给其他参与方。这样,只有当足够多的份额被组合在一起时,原始输入才能被恢复。

    

2. 阈值秘密共享(Threshold Secret Sharing):这是一种特殊的秘密共享,只有当超过某个阈值的份额被组合时,原始输入才能被恢复。这增加了系统的安全性。

    

3. 同态加密(Homomorphic Encryption):一种特殊的加密方法,允许在密文上直接进行计算,而不需要解密,计算结果在解密后与原始数据上进行相同计算的结果相同。

    

4. 零知识证明(Zero-Knowledge Proofs):参与方可以证明他们拥有某些信息或已经正确执行了某些计算,而不需要向验证者透露任何额外的信息。

    

5. 安全多方计算协议(Secure Multi-Party Computation Protocols):这些协议定义了如何在不泄露个人数据的情况下进行联合计算的具体步骤。

    

6. 隐私保护(Privacy-Preserving):MPC的最终目标是保护参与方的隐私,确保即使在计算过程中,个人数据也不会被其他参与方或任何外部观察者所知。

    

多方计算(MPC,Multi-Party Computation)在数据交易中的应用场景主要包括但不限于以下几个方面:


1. 数据安全查询:政府部门和商业机构需要查询信息的同时防止数据泄露。MPC技术可以在不泄露各自数据的前提下,实现数据的安全查询,适用于商业竞争、数据合作等众多领域 。


2. 联合数据分析:跨机构合作和跨国公司经营运作中,需要从多个数据源获取数据进行分析。MPC技术可以在原始数据无需归集与共享的情况下实现计算,保护目标数据持有方的隐私及资产安全 。


3. 金融领域风控与征信:金融业可使用MPC进行数据本地采集,弥补传统征信数据的缺陷,支持数据类型多样化的协同计算,获得更为广泛的社会信用评价画像 。


4. 供应链金融:MPC技术可以帮助解决供应链上下游企业信息对称共享的问题,创造出新型供应链金融融资模式,提供数据追溯便利,提升服务效率 。


5. 医疗数据共享:在医疗行业中,MPC技术可以建立起安全可信的数据交换网络,实现医疗数据价值的最大化效用,同时保护数据隐私 。


6. 政务数据开放与共享:通过MPC技术,可以在保障数据安全的同时,增强全社会的数据协作,推动数据要素赋能产业升级 。


7. 金融监管:MPC技术可以用于金融监管领域,如贷后资金流向监控,帮助监管机构穿透式监管,确保资金用途合规 。


8. 机器学习:在机器学习领域,MPC技术可以使得企业间进行数据租赁,实现数据价值变现,同时保护数据隐私,降低数据使用成本 。


这些应用场景展示了MPC技术如何在保证数据隐私和安全的前提下,促进数据的流通和价值的挖掘。随着技术的发展和法规的完善,预期MPC将在更多领域发挥重要作用 。



03

可信执行环境:安全的数据执行空间


可信执行环境(TEE)提供了一个隔离的执行空间,确保代码和数据在执行过程中的安全性。通过TEE,即使在不安全的外部环境中,数据也能安全地被处理和分析,从而增强了数据交易的安全性。


TEE 是一种具有运算和储存功能,能提供安全性和完整性保护的独立处理环境。其基本思想是:在硬件中为敏感数据单独分配一块隔离的内存,所有敏感数据的计算均在这块内存中进行,并且除了经过授权的接口外,硬件中的其他部分不能访问这块隔离的内存中的信息。以此来实现敏感数据的隐私计算。


TEE 在联邦学习中的应用


TEE(可信执行环境)作为一种基于硬件的隐私计算技术,与联邦学习结合使用,可以在保障计算效率的同时确保数据安全。


联邦学习是一种新兴的机器学习技术,它允许多个参与方在保护数据隐私的前提下,共同训练一个模型。其核心理念是:保持数据本地化,只共享模型参数,实现数据的可用性而不可见性。


在横向联邦学习场景中,各参与方利用自己的数据独立训练模型,然后将模型的梯度等参数上传至中心服务器进行聚合,以生成更新后的模型。尽管原始数据不会被直接共享,攻击者仍有可能通过分析梯度信息来推断出原始数据。为应对这一风险,通常会采用加噪或同态加密技术来保护梯度信息。


TEE技术可以通过替代传统的参数服务器,来增强联邦学习的安全性。在TEE环境中进行的参数聚合操作,假设TEE是安全可信的,可以简化为使用数字信封实现TEE与计算节点的交互,避免复杂的同态加密计算,从而提高联邦学习的训练效率。


以FLATEE框架为例,TEE技术在联邦学习中的应用流程如下:


1. TEE生成用于数据和代码传输的对称加密密钥和公钥。

2. 各参与方在TEE中基于自己的数据训练模型,并对模型参数进行加密。

3. 加密后的模型参数上传至中心服务器。

4. 服务器在TEE中对收到的加密模型参数进行解密,并执行聚合操作,生成全局模型。

5. 如果新模型的损失函数值低于预设阈值,算法训练完成;否则,进行新一轮迭代训练,直至满足停止条件。

6. 训练成功的模型通过TEE生成的密钥进行加密,然后分发给各参与方。


在FLATEE框架中,TEE不仅负责加解密操作,还提供了计算隔离,确保了联邦学习算法在不牺牲计算效率的情况下,实现更高的安全性。



TEE 可以在一个复杂且相互联系的系统中提供良好的安全性,目前多数 TEE 应用场景均指向智能手机端。在该场景下,TEE 能够提供的安全性服务包括:隐私保护的票务服务、在线交易确认、移动支付、媒体内容保护、云存储服务认证等等。此外,TEE 也可在仅基于软件的情况下实现 TPM(Trusted Platform Module),目前的一个研究趋势是使用 TEE 去保障各种嵌入式系统平台的安全,如传感器和物联网等。



04

联邦学习:分布式的数据学习和模型训练


联邦学习也称为协同学习,它可以在产生数据的设备上进行大规模的训练,并且这些敏感数据保留在数据的所有者那里,本地收集、本地训练。在本地训练后,中央的训练协调器通过获取分布模型的更新获得每个节点的训练贡献,但是不访问实际的敏感数据。联邦学习允许多个参与方在保持数据本地化的前提下,共同训练机器学习模型。这种方法不仅保护了数据隐私,还允许各参与方利用联合数据集的优势,提高模型的准确性和泛化能力。

联邦学习的目的是训练来自多个数据源的单个模型,其约束条件是数据停留在数据源上,而不是由数据源(也称为节点、客户端)交换,也不是由中央[服务器]进行编排训练(如果存在的话)。


在典型的联邦学习方案中,中央服务器将模型参数发送到各节点(也称为客户端、终端或工作器)。节点针对本地数据的一些训练初始模型,并将新训练的权重发送回中央服务器,中央服务器对新模型参数求平均值(通常与在每个节点上执行的训练量有关)。在这种情况下,中央服务器或其他节点永远不会直接看到任何一个其他节点上的数据,并使用安全聚合等附加技术进一步增强隐私。

以下是一些具体的联邦学习用例以及它们是如何应用联邦学习技术的:

1. 手机输入法的下一个词预测:
    
    - 研究者如McMahan等人(2017年)和Hard等人(2019年)提出使用联邦学习来改进移动设备上的下一个词预测功能。
    - 在这个用例中,用户的输入数据保留在本地设备上,不会发送到中央服务器。每个设备使用自己的数据独立地训练模型的一部分。
    - 然后,设备将模型的更新(如梯度或模型参数)加密发送到中央服务器,服务器聚合这些更新来改进全局模型,然后分发回各个设备,以便它们可以进一步训练和更新自己的模型。
    - 这种方法保护了用户的隐私,因为个人数据从未离开设备。
2. 健康研究:
    
    - Kaissis等人(2020年)和Sadilek等人(2021年)探讨了联邦学习在健康数据研究中的应用。
    - 在健康研究中,患者的数据是非常敏感的。联邦学习允许医疗机构在不共享患者数据的情况下,共同工作以训练用于疾病诊断或治疗预测的模型。
    - 各医疗机构可以在本地训练模型,并将模型更新发送到中央服务器进行聚合,从而形成一个更准确的全局模型,同时保护患者隐私。

3. 汽车自动驾驶:
    
    - Zeng等人(2021年)和OpenMined组织探讨了联邦学习在自动驾驶汽车发展中的应用。
    - 在这个领域,每辆汽车都可以收集传感器数据并使用这些数据来训练自动驾驶模型。然而,由于隐私和安全性的考虑,车辆之间的数据共享受到限制。
    - 联邦学习允许车辆在不共享原始数据的情况下,共享模型学习的经验,通过交换模型更新来提高整个车队的自动驾驶能力。
    - 这种方法可以加快自动驾驶技术的发展,同时保护车辆和乘客的隐私。

4. 智能家居系统:
    
    - Matchi等人(2019年)和Wu等人(2020年)研究了联邦学习在智能家居系统中的应用。
    - 智能家居设备(如智能音箱、安全摄像头、温度控制器等)可以收集大量家庭数据,但用户可能不希望这些数据被发送到外部服务器。
    - 通过联邦学习,这些设备可以在本地处理数据并训练模型,然后与其他设备共享模型更新,以改进家庭自动化和个性化服务,如语音识别、行为预测等。
    - 这种方法增强了智能家居系统的智能性,同时确保了用户数据的隐私和安全。

在所有这些用例中,联邦学习的关键优势是能够在不共享原始数据的情况下,利用多个数据源进行模型训练,从而提高了模型的泛化能力和准确性,同时保护了数据隐私。

在数据交易平台,如果存在一些机密数据,如果购买方又想使用,可以按照联邦学习的方式提供训练服务的方式进行提供数据服务,即不泄漏数据,又提供训练服务。



05

同态加密:在加密数据上进行计算


同态加密是一种允许在加密数据上直接进行计算的加密技术。这意味着数据可以在加密状态下被分析和处理,而无需解密,从而在不泄露数据内容的情况下实现数据的利用。


同态加密方案关注的是数据处理的安全,提供一种对加密数据进行处理的功能。其特点是允许数据在加密情况下实现数学或逻辑运算。同态是指代数中的同态性,加密和解密函数可以被认为是明文和密文空间之间的同态。


同态性在代数上包括:加法同态、乘法同态、减法同态和除法同态;


同时满足加法同态和乘法同态,则意味着是代数同态,即全同态;


同时满足四种同态性,则被称为算数同态 。


全同态加密(Fully Homomorphic Encryption),支持对密文进行任意计算的密码系统称为全同态加密 (FHE)。这种方案能够为任何所需功能构建程序,这些功能可以在加密输入上运行以产生结果加密。由于这样的程序永远不需要解密其输入,因此它可以由不受信任的一方运行,而不会泄露其输入和内部状态。


下面我们以PYSEAL论文中对全同态加密场景的一个举例:

同态加密算法的应用场景:

基于全同态加密的特性,它可被用于保护隐私的外包存储和计算以及在加密的数据中进行诸如检索、比较等操作,得出正确的结果,而在整个处理过程中无需对数据进行解密。它的意义在于,能够解决将数据及其计算委托给第三方时的数据安全问题。对于医疗保健信息等敏感数据,全同态加密可用于通过消除抑制数据共享产生的隐私安全问题或提高现有服务的安全性来启用扩展新的服务。例如,由于医疗数据隐私问题,医疗保健中的预测分析可能难以通过第三方服务提供商处理,如果预测分析服务提供商可以对加密数据进行操作,就会减少因为使用第三方服务而产生的隐私安全问题。即使服务提供商的系统受到安全威胁,数据也将保持安全。

在数据交易的过程中,如果医疗数据是明感信息,但是外部其它医院希望通过查询或者比较的操作,进行诊断的推测行为,这种数据交易过程则可以采用同态加密,即不泄漏个人隐私数据又提供了数据服务。


06

数据脱敏:去除敏感信息的数据利用

数据脱敏技术通过去除或替换数据中的敏感信息,使得数据在流通和交易中不会造成隐私泄露。这种方法在保护个人隐私的同时,也使得数据可以被更广泛地使用。

数据脱敏技术是保护敏感数据安全的重要手段,它通过替换、失真等变换降低数据的敏感度,同时保留一定的可用性、统计性特征。数据脱敏技术主要包括以下几类方法:

1. 静态数据脱敏(Static Data Masking, SDM):通常用于非生产环境中,如测试、统计分析等。它在数据从生产环境转移到非生产环境时进行统一的脱敏处理,以保证数据安全。

2. 动态数据脱敏(Dynamic Data Masking, DDM):用于生产环境中,根据访问需求和用户权限进行实时的“更小颗粒度”的管控和脱敏,实现更为复杂的数据保护。

3. 数据脱敏算法:常见的脱敏算法包括替换、随机、覆盖、可逆、可逆还原、截断、截取、映射和加密等。这些算法可以根据业务需求和数据类型选择使用。

数据脱敏的应用场景广泛,包括但不限于:

- 政府信息中心交换平台共享数据:在数据共享时,敏感数据需要先脱敏再共享,以保护个人隐私。
- 公安数据开发测试:在公安系统中,敏感数据如个人身份信息、车辆信息等在开发测试阶段需要脱敏处理。
- 金融行业开发测试:网上交易、应用中涉及的客户个人信息、账号信息等在测试环境中需要脱敏,以防止数据泄露。
- 医疗数据共享和交换:病人信息、病历数据在医疗系统中共享到科研、健康大数据平台或其他医院时需要脱敏。
- 教育数据开发测试:智慧校园建设中,学生学籍、教师个人信息等在开发测试阶段需要脱敏处理。

数据脱敏技术的发展呈现出性能提升、非结构化数据脱敏、智能化数据脱敏以及合规应用等趋势。随着大数据时代的到来,数据脱敏技术的应用将更加广泛,成为保障数据安全的关键技术之一。


07

数据加密:确保数据传输和存储的安全性


数据加密是保护数据在传输和存储过程中不被未授权访问的基本手段。通过加密,即使数据被截获,攻击者也无法解读数据内容,从而保障了数据的安全性。


数据加密技术是一种安全措施,用于保护存储或传输的数据不被未授权的人访问或篡改。以下是一些常见的数据加密技术:


1. 对称加密(Symmetric Encryption):

   - 使用相同的密钥进行数据的加密和解密。

   - 常见的对称加密算法有:AES(高级加密标准)、DES(数据加密标准)、3DES(三重数据加密算法)等。


2. 非对称加密(Asymmetric Encryption):

   - 使用一对密钥,一个用于加密(公钥),另一个用于解密(私钥)。

   - 常见的非对称加密算法有:RSA、DSA(数字签名算法)、ECC(椭圆曲线加密算法)等。


3. 哈希函数(Hashing):

   - 将数据转换为固定长度的字符串,通常是单向的,即不能从哈希值恢复原始数据。

   - 常见的哈希算法有:MD5、SHA-1、SHA-256等。


4. 数字签名(Digital Signatures):

   - 用于验证数据的完整性和认证数据的来源。

   - 结合了非对称加密和哈希函数。



数据加密技术的应用场景包括:


- 个人数据保护:如电子邮件加密、文件加密等。

- 在线交易:使用SSL/TLS保障交易安全。

- 数据存储:使用全磁盘加密保护存储设备中的数据。

- 通信安全:如VoIP加密、即时通讯加密等。

- 企业数据保护:企业内部数据传输和存储加密,防止数据泄露。

- 政府和军事通信:保障国家机密和军事通信的安全。

- 医疗数据保护:符合HIPAA等法规要求,保护患者隐私。

- 金融服务:如在线银行、股票交易等,使用加密技术保护金融交易数据。

- 云存储服务:使用端到端加密保护用户存储在云端的数据。


随着技术的发展和安全需求的增加,数据加密技术也在不断进步,为各种应用场景提供更加安全的数据保护措施。


数据的流通和交易是数字经济的核心。通过隐私计算、可信执行环境、联邦学习、同态加密、数据脱敏和数据加密等核心技术的应用,我们能够在确保数据安全和隐私的前提下,充分发挥数据的价值。这些技术的结合使用,为数据的高效利用提供了坚实的基础,同时也为数据经济的发展开辟了新的道路。


随着技术的不断进步和创新,我们可以预见,未来将有更多的解决方案出现,以应对数据流通和交易中不断变化的安全和隐私挑战。



欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用




往期数据平台历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式

一图展示数据中台的数据流图

揭秘数据治理系统的数据流程图

往期AIGC历史热门文章:

AIGC系列之一-一文理解什么是Embedding嵌入技术

十大AIGC文生视频产品介绍

九大最热门的开源AI Agent框架

AutoGen零代码构建⾃⼰的智能助理


请使用浏览器的分享功能分享到微信等