加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据安全面临的技术问题和挑战

发布时间:2022-10-30 16:33:25 所属栏目:大数据 来源:未知
导读: 大数据安全威胁渗透在数据生产/采集、处理和共享等大数据产业链的各个环节,风险成因复杂交织;既有外部攻击,也有内部泄露;既有技术漏洞,也有管理缺陷;既有新技术新模式触发的新风险,

大数据安全威胁渗透在数据生产/采集、处理和共享等大数据产业链的各个环节,风险成因复杂交织;既有外部攻击,也有内部泄露;既有技术漏洞,也有管理缺陷;既有新技术新模式触发的新风险,也有传统安全问题的持续触发。本报告将聚焦于大数据本身面临的安全威胁,从大数据平台安全、数据安全和个人信息安全三个方面展开分析,确定大数据安全需求。

(一)平台安全问题与挑战

1、大数据平台在Hadoop 开源模式下缺乏整体安全规划,自身安全机制存在局限性

目前,Hadoop 已经成为应用最广泛的大数据计算软件平台,其技术发展与开源模式结合。Hadoop 在设计阶段最初设计是为了管理大量的公共web 数据,假设集群总是处于可信的环境中,由可信用户使用的相互协作的可信计算机组成。

因此最初的Hadoop 没有设计安全机制,也没有安全模型和整体的安全规划。随着Hadoop 的广泛应用,越权提交作业、修改JobTracker 状态、篡改数据等恶意行为的出现,Hadoop开源社区开始考虑安全需求大数据风险,并相继加入了Kerberos 认证、文件ACL 访问控制、网络层加密等安全机制,这些安全功能可以解决部分安全问题,但仍然存在局限性。在身份管理和访问控制方面,依赖于Linux 的身份和权限管理机制,身份管理仅支持用户和用户组,不支持角色;仅有可读、可写、可执行三个权限,不能满足基于角色的身份管理和细粒度访问控制等新的安全需求。安全审计方面,Hadoop 生态系统中只有分布在各组件中的日志记录,无原生安全审计功能,需要使用外部附加工具进行日志分析。另外,开源发展模式也为Hadoop 系统带来了潜在的安全隐患。企业在进行工具研发的过程中,多注重功能的实现和性能的提高,对代码的质量和数据安全关注较少。因此,开源组件缺乏严格的测试管理和安全认证,对组件漏洞和恶意后门的防范能力不足。据Common Vulnerabilities and Exposures(以下简称“CVE”)

漏洞列表显示,从2013 年到2017 年,Hadoop 暴露出来的漏洞数量共计18 个,其中有5 个是关于信息泄露的漏洞,并且漏洞数量逐年增长,这五年的具体漏洞数量如图2 所示。

大数据风险_大数据的管理风险_支付宝 大数据 风险

图2.2013-2017 年Hadoop 漏洞统计图

2、大数据平台服务用户众多、场景多样,传统安全机制的性能难以满足需求

大数据场景下,数据从多个渠道大量汇聚,数据类型、用户角色和应用需求更加多样化,访问控制面临诸多新的问题。首先,多源数据的大量汇聚增加了访问控制策略制定及授权管理的难度,过度授权和授权不足现象严重。其次,数据多样性、用户角色和需求的细化增加了客体的描述困难,传统访问控制方案中往往采用数据属性(如身份证号)来描述访问控制策略中的客体,非结构化和半结构化数据无法采取同样的方式进行精细化描述,导致无法准确为用户指定其可以访问的数据范围,难以满足最小授权原则。大数据复杂的数据存储和流动场景使得数据加密的实现变得异常困难,海量数据的密钥管理也是亟待解决的难题。

3、大数据平台的大规模分布式存储和计算模式导致安全配置难度成倍增长

开源Hadoop 生态系统的认证、权限管理、加密、审计等功能均通过对相关组件的配置来完成,无配置检查和效果评价机制。同时,大规模的分布式存储和计算架构也增加了安全配置工作的难度,对安全运维人员的技术要求较高,一旦出错,会影响整个系统的正常运行。据Shodan 互联网设备搜索引擎的分析显示,大数据平台服务器配置不当,已经导致全球5120TB 数据泄露或存在数据泄露风险,泄露案例最多的国家分别是美国和中国1。本年初针对Hadoop 平台的勒索攻击事件,在整个攻击过程中并没有涉及常规漏洞,而是利用平台的不安全配置,轻而易举地对数据进行操作。

4、针对大数据平台网络攻击手段呈现新特点,传统安全监测技术暴露不足

大数据存储、计算、分析等技术的发展,催生出很多新型高级的网络攻击手段,使得传统的检测、防御技术暴露出严重不足,无法有效抵御外界的入侵攻击。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而针对大数据的高级可持续攻击(APT)采用长期隐蔽的攻击实施方式,并不具有能够被实时检测的明显特征,发现难度较大。此外,大数据的价值低密度性,使得安全分析工具难以聚焦在价值点上,黑客可以将攻击隐藏在大数据中,传统安全策略检测存在较大困难。因此,针对大数据平台的高级持续性威胁(APT)攻击时有发生,大数据平台遭受的大规模分布式拒绝服务(DDoS)攻击屡见不鲜。Verizon 公司《2018 年数据泄露调查报告》显示,48%的数据泄露与黑客攻击有关,其中,DDoS、钓鱼攻击以及特权滥用是主要的黑客攻击方式,具体数据如图3 所示。

大数据风险_支付宝 大数据 风险_大数据的管理风险

图3.数据泄露中主要攻击手段统计图

(二)数据安全问题和挑战

除数据泄露威胁持续加剧外,大数据的体量大、种类多等特点,使得大数据环境下的数据安全出现了有别于传统数据安全的新威胁。

1、数据泄露事件数量持续增长,造成的危害日趋严重大数据因其蕴藏的巨大价值和集中化的存储管理模式成为网络攻击的显著目标,针对大数据的勒索攻击和数据泄露问题日趋严重,重大数据安全事件频发。Gemalto 《2017数据泄露水平指数报告》显示,2017 年上半年全球范围内数据泄露总量为19 亿条,超过2016 年全年总量(14 亿),比2016 年下半年增长了160%多,从2013 年到2017 年全球数据泄露的具体数目如图4 所示,从图中可以看出数据泄露的数目呈现逐年上涨的趋势。仅2017 年,全球即发生了多起影响重大的数据泄露事件,美国共和党下属数据分析公司、征信机构3先后发生大规模用户数据泄露,影响人数均达到亿级规模。我国数据泄露事件也时有发生。2017 年3 月,京东试用期员工与网络黑客勾结,盗取涉及交通、物流、医疗等个人信息50 亿条,在网络黑市贩卖。此外,大数据平台自身安全形势同样不容乐观。据Shodan 统计,截至2017 年2月3 日,中国有15046 个MangoDB 数据库暴露在公网,存在严重安全隐患。

大数据风险_支付宝 大数据 风险_大数据的管理风险

图4.2013-2017 年数据泄露数量统计图

2、数据采集环节成为影响决策分析的新风险点

大数据的管理风险_大数据风险_支付宝 大数据 风险

在数据采集环节,大数据体量大、种类多、来源复杂的特点为数据的真实性和完整性校验带来困难,目前,尚无严格的数据真实性和可信度鉴别和监测手段,无法识别并剔除掉虚假甚至恶意的数据信息。若黑客利用网络攻击向数据采集端注入脏数据,会破坏数据真实性,故意将数据分析的结果引向预设的方向,进而实现操纵分析结果的攻击目的。

3、数据处理过程中的机密性保障问题逐渐显现

数字经济时代来临,越来越多的企业或组织需要协同参与产业链的联合,以数据流动与合作为基础进行生产活动。企业或组织在使用数据资源参与合作的应用场景中,数据的流动使数据突破了组织和系统的界限,产生跨系统的访问或多方数据汇聚进行联合运算。保证个人信息、商业机密或独有数据资源在合作过程中的机密性,是企业或组织参与数据流动与数据合作的前提,也是数据安全有序互联互通必须要解决的问题。

4、数据流动路径的复杂化导致追踪溯源变得异常困难

大数据应用体系庞杂,频繁的数据共享和交换促使数据流动路径变得交错复杂,数据从产生到销毁不再是单向、单路径的简单流动模式,也不再仅限于组织内部流转,而会从一个数据控制者流向另一个控制者。在此过程中,实现异构网络环境下跨越数据控制者或安全域的全路径数据追踪溯源变得更加困难,特别是数据溯源中数据标记的可信性、数据标记与数据内容之间捆绑的安全性等问题更加突出。2018年3 月的“剑桥分析”事件中,Facebook 对第三方APP 使用数据缺乏监管和有效的追责机制,最终导致8700 万名用户资料被滥用,还带来了股价暴跌、信誉度下降等严重后果。

(三)个人隐私安全挑战

大数据应用对个人隐私造成的危害不仅是数据泄露,大数据采集、处理、分析数据的方式和能力对传统个人隐私保护框架和技术能力亦带来了严峻挑战。

1、传统隐私保护技术因大数据超强的分析能力面临失效的可能

在大数据环境下,企业对多来源多类型数据集进行关联分析和深度挖掘,可以复原匿名化数据,从而获得个人身份信息和有价值的敏感信息。因此,为个人信息圈定一个“固定范围”的传统思路在大数据时代不再适用。在传统的隐私保护技术中,数据收集者针对单个数据集孤立地选择隐私参数来保护隐私信息。而在大数据环境下,由于个体以及其他的相互关联的个体和团体的数据分布广泛,数据集之间的关联性也大大增加,从而增加了数据集融合之后的隐私泄露风险。传统的隐私保护技术如k 匿名和差分隐私等并没有考虑到这种情况。

2、传统隐私保护技术难以适应大数据的非关系型数据库

在大数据技术环境下,数据呈现动态变化、半结构化和非结构化数据居多的特性,对于占数据总量80%以上的非结构化数据,通常采用非关系型数据库(NoSQL)存储技术完成对大数据的抓取、管理和处理。而非关系型数据库没有严格的访问控制机制及完善隐私管理工具,现有的隐私保护技术如数据加密、数据脱敏等,多用于关系型数据库并产生作用,不能有效应对非关系型数据库的演进,容易发生隐私泄露风险。

--摘自《大数据安全白皮书(2018 年)》

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!