《大数据安全与隐私保护》读书笔记——1绪论
第一章、绪论1.1大数据概述1.1.1大数据来源1.1.2大数据应用1.1.3大数据技术架构1.2大数据安全与隐私保护需求1.2.1大数据安全1.2.2大数据隐私保护1.2.3两者的区别和联系1.3大数据生命周期安全风险分析1.3.1数据采集阶段1.3.2数据传输阶段1.3.3数据存储阶段1.3.4数据分析与使用阶段1.4大数据安全与隐私保护技术框架1.4.1大数据安全技术1.4.2大数据隐私保护技术1.5大数据服务于信息安全1.5.1基于大数据的威胁发现技术1.5.2基于大数据的认证技术1.5.3基于大数据的数据真实性分析1.5.4大数据与SaaS1.6基本密码学工具1.1大数据概述大数据并不仅仅是“大量的数据”。在学术界,图灵奖获得者JimGray提出了以大数据为基础的数据密集型科学研究,也就是科学研究的第四范式,数据探索(dataexploration);在工业界,大数据技术成为了涵盖分布式存储与管理、并行计算、机器学习与人工智能等一系列技术的庞大技术体系。目前,大数据技术与云计算、人工智能一起被公认为是IT(信息技术)时代向DT(数据技术)时代跃迁的三大产业支柱。
1.1.1大数据来源大数据是指规模大且复杂,以致于很难用现有数据库管理工具或数据处理应用来处理的数据集(Gartner如是定义:Bigdataishigh-volume,high-velocityandhigh-varietyinformationassetsthatdemandcost-effective,innovativeformsofinformationprocessingforenhancedinsightanddecisionmaking)。它涵盖了数据采集、存储、分析、使用等几个方面。
根据来源对象的不同,可以将其分为源自人、机、物等几类的大数据。若根据应用领域划分,则典型的大数据来源包括:互联网大数据、物联网大数据、生物医疗大数据、电信大数据、金融大数据、智慧城市大数据、交通大数据、科学研究大数据等。
1.1.2大数据应用大数据技术已经被广泛应用于电子商务、金融、智能医疗、智能交通等领域:
互联网大数据分析方面:分析用户购物数据,构建用户画像,准确地掌握用户购物倾向,实现精准营销;交通大数据分析方面:对数据按时间切片分析,构建实时热点分布图,进行景区热力预警分析;医疗健康大数据分析方面:通过对大量电子病历的学习,医学研究机构可以更清晰地发现疾病演变规律,并作出更科学、准确的诊断。1.1.3大数据技术架构大数据技术设计数据的采集与预处理、数据分析、数据解释等。如下图
1.数据采集与预处理:数据源种类繁多,数据类型多样、包含各类结构化、非结构化和半结构化数据,因此数据采集与预处理为后继流程提供高质量数据集;为提高数据吞吐量,降低存储成本,通常采用分布式架构来存储大数据。2.数据分析:是大数据应用的核心流程,分析层次大致分为计算架构、查询与检索,以及数据分析与处理等三类。在计算架构方面,MapReduce是广泛采用的计算架构和框架;在查询与检索方面,NoSQL类数据库技术得到更多关注;数据分析与处理方面,主要技术包括语义分析与数据挖掘。3.数据解释:在更好地支持用户对数据分析结果的使用,涉及的主要技术有可视化技术和人机交互技术。4.数据传输、虚拟集群等其他支撑技术:为大数据处理提供技术支撑。1.2大数据安全与隐私保护需求1.2.1大数据安全由于数据价值密度高,大数据往往吸引大量攻击者铤而走险。在大数据场景带来如下各项新技术挑战:
1.在满足可用性的前提下实现大数据机密性:以数据加密为例,大数据应用不仅对加密算法性能提出了更高的要求,而且要求密文具备适应大数据处理的能力,例如数据检索与并发计算。2.实现大数据的安全共享:在大数据访问控制中,用户难以信赖服务商正确实施访问控制策略,且在大数据应用中实现用户角色与权限划分更为困难。3.实现大数据真实性验证与可信溯源:一定数量的虚假信息混杂在真实信息之中,往往影响数据分析结果的准确性。需要基于数据的来源真实性、传播途径、加工处理过程等,了解各项数据可信度,防止分析得出无意义或者错误的结果。1.2.2大数据隐私保护未能妥善处理会对用户的隐私造成极大的侵害:
1去匿名化技术的发展,实现身份匿名越来越困难:仅数据发布时做简单的去标识处理已经无法保证用户隐私安全,通过链接不同数据源的信息,攻击者可能发起身份重识别攻击(re-identificationattack),逆向分析出匿名用户的真实身份,导致用户的身份隐私泄露。基于大数据对人们状态和行为的预测带来隐私泄露威胁:随着深度学习等人工智能技术快速发展,通过对用户行为建模与分析,个人行为规律可以被更为准确的预测与识别,刻意隐藏的敏感属性可以被推测出来。总体而言,目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业的自律。用户无法确定自己隐私信息的用途。而在商业化场景中,用户应有权决定自己的信息如何被利用,实现用户可控的隐私保护。1.2.3两者的区别和联系1.大数据安全需求更为广泛,关注的目标不仅包括数据机密性,还包括数据完整性、真实性、不可否认性,以及平台安全、数据权属判定等。而隐私保护需求一般仅聚焦于匿名性2.虽然隐私保护中的数据匿名需求与安全需求之一的机密性需求看上去比较类似,但后者显然严格得多基于大数据对人们状态和行为的预测带来隐私泄露威胁3.在大数据安全问题下,一般来说数据对象是有明确定义。而在涉及隐私保护需求时,所指的用户“隐私”则较为笼统,可能具有多种数据形态存在。1.3大数据生命周期安全风险分析大数据的生命周期包括数据产生、采集、传输、存储、使用、分享、销毁等诸多环节,每个环节都面临不同的安全威胁。其中,安全问题较为突出的是数据采集、数据传输、数据存储、数据分析与使用四个阶段
1.3.1数据采集阶段数据采集是指采集方对于用户终端、智能设备、传感器等产生的数据进行记录与预处理的过程。可根据场景需求选择安全多方计算等密码学方法,或选择本地差分隐私(LDP)等隐私保护技术来避免真实数据被采集。
1.3.2数据传输阶段数据传输是指将采集到的大数据由用户端、智能设备、传感器等终端传送到大型集中式数据中心的过程。数据传输阶段中为了保证数据在传输过程中内容不被恶意收集或破坏,有必要采取安全措施保证数据的机密性和完整性,如SSL通讯加密协议、专用加密机、VPN技术等。
1.3.3数据存储阶段大数据被采集后常汇集存储于大型数据中心,这必然成为攻击目标。因此,大数据存储面临的安全风险包括来自外部攻击、内部窃取,不同利益方对数据的超权限使用等。
1.3.4数据分析与使用阶段上述主要目的是为了数据的分析与使用,通过数据挖掘、机器学习等方式处理,从而提取出所需的知识。本阶段焦点在于如何实现数据挖掘中的隐私保护,降低多源异构数据集成中的隐私泄露。防止数据使用者对用户数据挖掘,得出用户刻意隐藏的知识;防止分析者在进行统计分析时,得到具体用户的隐私信息。
1.4大数据安全与隐私保护技术框架大数据生命周期各个阶段的安全和隐私保护目标各有侧重,需要根据响应的需求来选择响应的技术手段支撑。
1.4.1大数据安全技术1.大数据访问控制1)基于密码学的访问控制:保障云环境中数据的安全共享,需要确保解密密钥只授权给合法用户,加密算法大致分为两类,传统公钥密码学(PKI等)保护方法,以及支持细粒度访问控制和策略的属性加密(一种典型的函数加密)等新的公钥加密技术。2)角色挖掘:起源于基于角色的访问控制,自动化地(基于机器学习)对角色进行挖掘并完成授权,成为RBAC类系统开发的必然趋势。3)风险自适应访问控制:将风险量化并为使用者分配访问额度,当用户访问的资源风险值高于某个预定阈值时,限制用户访问。(风控?)2.安全检索1)PIR系列与ORAM:PIR(隐私信息获取)指用户在不向远端服务器暴露查询意图的前提下对服务器的数据进行查询并获得指定数据的方法;ORAM(不经意RAM或健忘RAM)在读写过程中向服务器隐藏访问模式等;前者关注用户访问模式,后者关注数据机密性。2)对称可搜索加密:可搜索加密研究快速检索出包含特定关键字或满足关键词布尔表达式的密文文档的方法。对称可搜索加密(SSE)适用于数据提交者与查询者相同的使用场景。相关研究包括多关键词查询、模糊查询、Top-k和多用户SSE等。3)非对称可搜索加密:非对称可搜索加密(ASE)主要用于第三方检索。一般使用公钥技术实现关键词门限生成与检索。4)密文区间检索:利用数据之间存在的顺序关系,不必按顺序扫描,而以更快速的方法查找指定区间的数据。典型方案包括近邻数据分桶、保续加密、密文索引树等。3.安全计算1)同态加密:既可处理加密数据又可维持数据的机密性。2009年,Gentry基于理想格构造了全同态加密方案。2)可验证计算:实现外包计算完整性即正确性的最可靠技术,使用密码技术确保外包计算的完整性而无须对服务器失败率或失败相关性做任何假设。基于承诺、基于同态加密和交互构造是三类最具代表性的方法。3)安全多方计算:使多个参与方安全地执行分布式计算任务,除自己的输入和输出无法获得其他额外信息。相关工作包括计算布尔电路的安全多方协议和安全计算算术电路的安全多方计算两大类。大多数安全地计算布尔电路使用Yao的混淆电路和不经意传输(OT)协议。在安全模型、密文尺寸以及计算代价上不断改进。许多安全计算算术电路是基于秘密共享技术。4)函数加密:属性加密的一般化。除了使用正规的秘密密钥解密数据以外,还有函数秘密密钥,用于访问对应的函数在数据上计算的结果。5)外包计算:计算资源受限的用户将计算复杂度较高的计算外包给远端的半可信或恶意服务器完成的计算过程。研究主要集中在用户数据的安全性和隐私性、验证服务器返回结果的正确性(完整性)以及实现高效性方面。类型主要包括基于同态加密、基于安全多方计算、基于属性加密、基于伪装技术等四类外包计算。1.4.2大数据隐私保护技术大数据隐私保护技术为大数据提供离线与在线等应用场景下的隐私保护,防止攻击者将属性、记录和特定的用户个体联系起来。包括用户身份、属性、社交关系与轨迹等几类隐私保护。
1.关系型数据隐私保护:结构化数据表中,常使用数据扰动、泛化、分割发布等来模糊用户的其他特征,使得具有相同的敏感属性、记录和位置的相似用户至少有k个,以此来确定个体用户的真实属性和位置。1)身份匿名:标记符号的匿名化除去了身份等标志信息,但是仍可通过其他知识迅速确定攻击目标对应的记录。k-匿名模型可防止攻击者唯一地识别出数据集中的某个特定用户,使其无法进一步获得该用户的准确性信息。2)属性匿名:k-匿名处理后,攻击目标至少对应于k个可能的记录,攻击者仍有极大概率确定数据持有者的属性。使用l-多样化、t-贴近模型等,进行有针对性的扰动与泛化处理。3)多次发布模型与个性化匿名:数据连续、多次发布的场景中,需要考虑到多次发布的统一性问题。虽然满足k-匿名、l-多样化、t-贴近模型的要求,但是多次联合分析,会暴露数据匿名的漏洞。2.社交图谱数据隐私保护:在社交网络场景中,不仅包含属性数据,还包含社交关系,攻击者可以通过社交关系来重识别用户。1)节点匿名:添加一定程度的抑制、置换或扰动,降低精确匹配的成功率。2)边匿名:对图中其他边数据的扰动,降低该边被推测出来的可能性。3)属性匿名:具有相同属性的用户已结成关系,为实现属性匿名,需要节点、边、属性三方面联合匿名。3.位置与轨迹数据隐私保护:用户的地理位置空间属性在抽象后也可以成为用户的准标识符信息。1)面向LBS应用的隐私保护:基于位置的服务(LBS)对用户提交的实时位置信息进行匿名化处理,方案包括Mix-zone在路网中的应用和PIR在近邻查询中的应用。2)面向数据发布的隐私保护:敏感位置、用户轨迹、轨迹属性等几类数据的隐私保护。3)基于用户活动规律的攻击分析:攻击者可以将用户活动规律以具体模型量化描述,进而重新识别出匿名用户,推测敏感位置,预测用户轨迹。典型方法有基于马尔科夫模型、隐马尔科夫模型、混合高斯模型等攻击方法。4.差分隐私:具有普适性、以及严格证明的隐私保护框架。1)基本差分隐私:应用于数据发布、数据挖掘与学习、查询处理等方面。2)本地差分隐私:LDP指用户在本地将要上传的数据提前进行随机化处理,使其满足本地差分隐私条件后,在上传给数据采集者。典型代表是Rappor协议、SH协议等。3)基于差分隐私的轨迹隐私保护:在保持轨迹数据集总体统计特征稳定的基础上,产生新的轨迹来代替原始轨迹,且新数据集满足差分隐私安全要求。1.5大数据服务于信息安全大数据分析技术为信息安全带来挑战的同时,也带来新的发展契机,例如用于安全威胁发现认证,也用于数据真实性分析。
1.5.1基于大数据的威胁发现技术大数据威胁发现技术具有分析内容范围广、分析内容的时间跨度更长、能够预测攻击威胁、能够检测未知威胁。
1.5.2基于大数据的认证技术传统的身份认证技术(基于口令或证书凭证)需要面临两个问题:1)秘密可能丢失或被攻击者盗取;2)用户负担重,需要携带USBKey,需要输入生物特征等。但是基于大数据的认证技术在收集用户行为和设备行为数据后进行分析来鉴别操作者身份,具有如下有点:1)攻击者难以模拟用户行为特征;2)减轻用户负担;3)可更好地支持各系统认证机制的统一。然而也存在着初始阶段认证问题,以及用户隐私问题等缺点。
1.5.3基于大数据的数据真实性分析一些企业使用大数据来鉴别各类垃圾信息。一方面可获得更高的辨识准确率,另一方面通过机器学习技术,可以发现更多具有新特征的垃圾信息。
1.5.4大数据与SaaS安全即服务(SaaS)的未来前景,以底层大数据服务为基础,各个企业间组成相互信赖、互相支撑的信息安全服务体系,总体上形成信息安全产业界的良好生态环境。
1.6基本密码学工具1.加密技术1)对称加密技术:AES、SM4等对称加密,ZUC,ChaCha等序列密码。2)公钥加密技术:RSA、IES、SM2等非对称加密。2.数字签名技术:不可伪造、不可否认并保护信息完整性。ECDSA、SM2等签名3.Hash和MAC技术:Hash具有单向性、抗碰撞性,SHA256、SM3等;常用的是HMAC,即带密钥的hash4.密钥交换技术:MQV、SM2