首页 理论教育数据质量与安全管理:大数据的结构性安全观点

数据质量与安全管理:大数据的结构性安全观点

【摘要】:大数据设计模型和分配选项在数据集群安全中需要其他读取方法。请参考图8-4的Hadoop设计结构。图8-4Hadoop结构1)分散节点“分散处理比分散数据廉价”,这是大数据的法宝。2) Sharded数据为了确保大数据集群中数据的重复和恢复能力,多个副本移动相互不同节点的流体。想在大数据环境中增加安全功能的话需要扩展数据功能。

大数据设计模型和分配选项在数据集群安全中需要其他读取方法。进一步讲,大数据分配(distributions)没有各种内置(built-in)功能,与现有数据库、数据仓库、大型并行处理环境有截然不同的安全问题。大数据与其他分配模型(Hadoop文件系统使用的高度分散、重复、灵活的数据存储位置)有着本质的区别。分散文件系统拥有很多重要特性(根据资源分散重复存储位置),可进行大型并行计算。但是整合栈各阶层的方法(客户端和资源管理功能中包含数据节点和通信方法)有很多特定方面的顾虑。请参考图8-4的Hadoop设计结构。

图8-4 Hadoop结构

(图片来源:Apache software)

1)分散节点

“分散处理比分散数据廉价”,这是大数据的法宝。数据在任何可以使用资源的位置处理,也可进行大型并行计算。这与整齐划一且容易保护的中央存储库不同,形成非常容易受到攻击的脆弱复杂环境。除了表面上容易受到攻击、环境复杂,很难一直保持可能成为异构(heterogeneous)平台的较为分散集群的安全。

2) Sharded数据

为了确保大数据集群中数据的重复和恢复能力,多个副本移动相互不同节点的流体。碎片(shard)即跨越多个服务器共享的标准分割数据碎片。这种多个位置的自动移动难以正确理解同一时间的数据位置,也难以掌握有效副本的个数。这与进行数据处理时才使用、处于多种保护下的数据单一副本传统中央集中式数据安全模型正好相反,大数据在多个位置复制并可移动复制。

3)数据访问/所有权

基于角色的访问是大多数数据库安全计划的核心。关系型和准关系型平台包括角色、组、模式、标签安全、限制用户读取可使用的数据授权子集等各种设施。大多数大数据环境只能进行模式(概要)读取,但无更详细的单位限制。理论上在大数据环境下可以模仿标签安全和其他高级功能,但需要应用程序设计人员构建此种应用程序和数据存储功能。

4)节点之间的通信(www.chuimin.cn)

大多数Hadoop和分配版(Cassandra、MongoDB、 Couchbase等)的通信安全性不够突出(通过TCP/IP使用RPC)。 TLS和SSL几乎无法在大数据分配板中传达,与HDFS代理一样,捆绑时无法实现客户端和代理之间的通信(client-to-proxy communication),只能实现代理和节点之间的通信(proxy-to-node communication)。 Hadoop节点间的通信方式如图8-5所示。

图8-5 Hadoop节点间的通信方式

(来源: Apache software)

5)客户端的相互作用

客户端和资源管理人员及节点相互作用。网关服务是为记录数据而创建,而相反,客户端是为了直接和资源管理人员及个别数据节点进行通信。受损的客户端可通过某一方的服务器发送恶意数据或链接。这种模型虽更容易进行有效沟通,但节点-客户端、客户端-节点、名称服务器-节点难以得到保护。更进一步讲,自身组织节点的分配不符合无法在点对点网格(mesh)中使用防御警戒要求的网关、防火墙、监控等安全工具。6)缺乏安全

最后,也许也是最重要的一点,大数据选择几乎没有安全性可言。 目前也没有保护(“YARN”的服务标准认证和网络代理功能除外)数据存储位置、应用程序和核心Hadoop功能的某种设备。几乎没有或完全没有对抗一般网络威胁(即OWASP Top 10目录中的所有威胁)的设备,在这种网络服务模型下设置所有大数据,大多数大数据API都容易受到常见攻击。

大数据内部存在的设计安全问题有几种,虽然他们并不局限于大数据,但因分散数据和简单编程模型、服务的开放式架构的使用,大数据项目可成为本质对象。想在大数据环境中增加安全功能的话需要扩展数据功能。

大多数现有IT基础结构适用的安全技术无法使用此方法扩展和维持。因为安全控制并非内置在产品中,现有IT安全技术与Hadoop、NoSQL环境和传统安全工具之间具有传统的不一致性。安全供应商正尽可能应用到现有产品中,虽然数据和命令通过普通方法在输入集群的位置应用控制点,但集群内部并不使用安全措施。大多数安全工具无法扩展,在大数据环境中也无法运行。