首页 理论教育数据质量管理与安全:大数据运维观点

数据质量管理与安全:大数据运维观点

【摘要】:谈到大数据安全时,数据和基础结构安全都很重要。除了与Hadoop类似的平台结构性安全问题,许多IT管理团队对其他数据管理平台的一般安全控制不足。根据所选NoSQL运营种类,很有可能提供一种或两种安全控制。设置或管理大数据集群时,集群管理人员应考虑以下各领域的安全控制。虽然Kerberos可极大提高安全性,也仍然需谨慎对待。通常安全控制包括API服务器中匹配令牌邀请、输入有效性检查、节点管理政策过滤、与目录服务的整合等。

谈到大数据安全时,数据和基础结构安全都很重要。通常应保护为保护信息而进行数据管理的应用程序(数据库)。攻击者徘徊在数据库管理系统时,如果能够直接访问数据就会访问。如果无法直接访问信息,他们就会寻找弱点或破坏数据库应用程序的方法。

除了与Hadoop类似的平台结构性安全问题,许多IT管理团队对其他数据管理平台的一般安全控制不足。根据所选NoSQL运营种类,很有可能提供一种或两种安全控制。这是对网络代理、网络数据加密或管理访问完全的双向认证。但是通常并不是全关工具箱而是一种安全功能。更进一步讲,并不是基本行为而是经常做出的选择。甚至连Hadoop网络控制台未经过某种认证就可以访问。

以下在大数据集群中存储的数据通常有法律限制,也需要相应的保护。企业的IT系统和数据被盗攻击盛行,大型分散数据管理系统提供了诱饵。大数据有现有IT系统中的所有弱点,但因具备解决这种常见攻击的技术,所以没必要白白浪费时间。选择可与大数据一起使用的操作属性才是关键。设置或管理大数据集群时,集群管理人员应考虑以下各领域的安全控制。

1)敏感数据保护

保护敏感数据的标准设置是创建应用程序数据库,为阻止试图从外部访问数据进行加密。担心从现有数据管理系统中盗取记录(archives)或从磁盘中直接读取文件。加密文件可阻止无加密密匙的用户访问。复制大数据虽能够有效进行备份,但并不意味着某些非法管理人员或云服务管理人员可以创建自己的文件。加密可以保护从集群中复制的数据。一个或两个模糊NoSQL集群可对敏感数据进行加密,但大多数并未加密。不仅如此,大多数可使用的加密产品虽使用大数据但却无足够的扩展性和透明度,这是很重要的问题。

2)数据访问管理

各节点有一名以上具有完全数据访问权限的管理员。与加密一样,为了分离不同管理员间的业务,需要进行区分和具有相应设施。其要求与关系型平台相同,但大数据平台为满足这种要求,应看到内置的功能、文件、其他工具设施的不足之处。可通过控制访问不要的数据文件和数据节点进程、角色分离和加密技术的整合解决这些问题。但是,换言之,只有最不靠谱的管理员才会觉得数据是安全的,减少这方面的差距是选择控制的系统设计人员的责任。(www.chuimin.cn)

(1)构成及补丁管理:数据集群会随着时间的推移增加新节点,所以节点通常需要其他构成及补丁标签。此外,集群中使用不同OS平台时,很难确定相关补丁的修改标准。现有构成管理工具在基本平台中进行操作,虽然HDFS联盟可帮助管理集群,但也需要谨慎计划。集群虽可避免数据遗失或服务中断进行无损失节点循环,但重新启动目前为止根据集群如何构成、影响何种节点可引起严重的性能问题。所以结论是,虽然人们会担心用户不满,但却不会进行修正(patch)

(2)应用程序和节点认证:Hadoop认证用户并可使用增加Hadoop集群服务功能的Kerberos。 Kerberos票据被盗或重复时,可能恶意客户端使用虚拟图像文件或快照中截取的资格证明也可进入网络中。因为客户端应用程序和服务正确副本相对可轻易获取,虚拟环境和云环境中包含资格证明时会产生更大问题。为介绍集群中受损的接点或服务只对接点复制就可以。虽然Kerberos可极大提高安全性,也仍然需谨慎对待。虽然设置很麻烦,但对节点的加强认证是避免集群非法服务器和维持邀请的主要安全措施。

(3)审查和记录:如果怀疑有谁破坏了集群,为了感应到他们,就需要对活动进行记录。可提供的多种附加功能领域中,一种就是记录。与其他商用产品相同,Scribe和LogStash也是在大多数大数据环境中使用的整合开源工具。因此找到可互换的工具进行设置,与SIEM或日志管理等其他系统整合后实际检查结果。但是,因为实际上未开发查看数据或探测欺骗的政策,所以记录也没有作用。

(4)监控、过滤和终止:终止误用或恶意查询的内部监控工具还未出现。除了非法程序员制作的蹩脚分布式编程脚本,实际上对恶意大数据查询应如何防御也无任何协议。通过Kerberos认证客户端,分布式编程通过单一确认进行控制。问题是这种解决方案需要连接所有客户端指定“信息安全警戒地点”。曾经因为安全瓶颈限制原本的性能,将其称之为“信息服务速度调节器”。虽然大多数都具有大家提倡的基本安全价值,但需要放弃变更或扩展分配模型。当然,也可两者皆要求。

(5) API安全:应避免受大数据集群输入API代码和命令、缓冲溢出攻击和其他所有网络服务攻击。大多数属于使用集群的应用程序的责任,但通常不是这样。通常安全控制包括API服务器中匹配令牌邀请、输入有效性检查、节点管理政策过滤、与目录服务的整合等。API中的一部分甚至无需认证就可操作,所以大家仍然无法理解问题出在哪里。

概括来讲,虽然有几种构建大数据集群的方法,但却没有几种合适且可用的安全工具。但是通过内置组合基本认证服务和add-on安全,无需担心安全产品性能或扩展性就可解决最明显的弱点。