东方联盟揭秘大数据安全

浏览：1117 ℃

字体：大中小

发布时间：2019-08-01 12:44:01

来源：

旧闻：2018年8月28日，网传华住旗下多个连锁酒店开房信息数据遭泄露售卖。泄露的数据包含汉庭、美爵、禧玥、漫心、诺富特、美居、CitiGo、桔子等酒店用户详细信息。涉及53G华住官网注册资料，大约1.23亿条记录;22.3G酒店入住登记资料，约1.3亿人身份证信息;66.2G酒店开房记录，约2.4亿条。随后华住集团发布申明已开始核实事件真实性，并已报警处理。

数据之于大数据项目就犹如泉水之于锦鲤，其重要性不言而喻，必然是企业极力保护的核心资产之一。那大数据安全又是什么呢?是确保数据在收集、传输、处理和存储时的安全?那这个常见的数据安全又有何异同?是说通过大数据分析来提高企业安全?但这更像是大数据在安全领域的运用。

没关系，我们先不急着下定义，让我们先从几个不同的方面来感受下大数据安全的轮廓。

一、大数据语境下都有哪些安全问题?

1. 新工具带来新的安全风险

大数据用到多种新工具，这些新工具在诞生之初并没有把安全作为第一要素进行考虑，因此是存在安全隐患的，而工具在被大规模运用后这些安全隐患会逐步凸显出来。以MangoDB为例，它假设自己运行在企业内网环境中，且假设内网环境是安全可靠的，因此MangoDB默认情况下无需身份验证即可登录。有类似问题的还有Redis的早期版本。可想而知，如果这样毫不设防的数据库如果出现在了互联网上，势必会造成严重的安全问题。

在2016年底之后，出现了一波针对MangoDB的勒索攻击浪潮，黑客们发现互联网上有大量无需身份验证即可登录的MangoDB实例，其中一些数据库中还保存着大量高价值数据。于是黑客们把数据库中的数据进行了加密，并要求受害者支付赎金才能换回数据。美国某个医疗机构就是这么中招的，其存放了大量患者个人及医疗数据的MangoDB被黑客攻击，医院最终被迫无奈向黑客支付了赎金才换回了数据库的控制权，但谁知道在此期间攻击者有没有利用MangoDB的漏洞，以MangoDB为跳板进而已经入侵了企业内部网络呢?谁知道攻击者有没有把数据拖库，进而转卖给了第三方呢?

2. 数据污染

大数据系统收集的数据来自数量众多且类型各异的来源，并且对这些数据进行分析处理后生成更具价值的数据，或者基于对数据的分析处理来触发后续业务逻辑。这一点在运用了大数据的物联网系统中更为常见。由于物联网系统中部署了数量庞大的终端设备，各种各样的传感器、控制器都在产生数据并回传给数据平台做处理。

大数据系统中的数据流动路径就像是树根，每个根节点产生的数据都会对整棵树的生长产生影响。攻击者自然也明白这一点，破坏这些根节点就能破坏整个大数据系统的正常运行。例如，如果是大量破坏根节点使其不能生产数据，大数据系统将面临“巧妇难为无米之炊”的困境;如果是暗中替换或者篡改了某些根节点生产的数据，大数据系统的行为可能被攻击者操控;如果攻击者能够伪造根节点向大数据系统传递错误的，或者别有用心构造过的数据，那么大数据系统最终产出的数据价值可能大打折扣。

试想一下，某个养老院中实施监控老年人脉搏、心跳、血压等等数据，并基于对这些数据的分析处理而触发相应的警报、自动呼叫医护人员的系统，如果攻击者伪造数据制造出假警报，必将造成急救资源的浪费。而如果攻击者能够篡改心跳数据，当受害者心脏病突然发作时，系统可能无法监控到异常从而无法做出回应，受害者的人身安全必然受到严重威胁。

3. 个人隐私面临更多的风险

匿名化处理后的数据，在配合上其他维度的数据后，依然可以识别出用户身份。例如就算把数据记录中的姓名、身份证号等能够直接识别出某个个体的信息隐去，但如果有其他维度的带有个体标识信息的数据集合做参考，那么依然能识别出这些匿名化的数据记录多对应的个体。

现实中的例子有很多，比如Netflix对数据做了匿名化处理，但这些数据中的用户依然可以被识别出来，因为其中一些用户同时在Netflix和IMDB上给相同的电影做了评分，故而只需把这些数据关联起来就能达到识别用户的目的。

4. 存储大数据处理后的高价值数据的应用系统，其本身就是被攻击的目标

大数据所收集的原始数据往往单位价值密度低，但经过大数据处理后能够提取出这些数据中高价值的部分。这些经过处理后的数据除了可用于触发后续业务逻辑，也是辅助企业进行业务决策的重要输入。与此同时也是攻击者们天然感兴趣，千方百计想要获取到的数据。

从攻击者的角度来看，这些存储着高价值数据的系统其本质上不外乎也是个应用程序，如果能攻破这些应用程序进而拿到数据，相比于攻击者自己收集原始数据再处理而言要划算得多。

再加上大多数企业在防御攻击这件事上面主要依靠的是基于网络隔离的防御方式，意味着应用程序本身的安全质量极可能是靠不住的，一旦攻击者侵入企业内网，这些存储着高价值数据的应用程序势必会变成任攻击者宰割的“羔羊”。

5. 防火防盗防内鬼

“防火防盗防内鬼”可不是随便说说的段子。无论是大数据系统中的巨量原始数据，还是经过处理后的高价值数据，它们不仅是外部攻击者眼中的肥肉，也可能被内鬼盯上。

永远不要低估了企业内部威胁，见诸报端的企业内鬼作案不在少数，就在1个多月前，特斯拉指控一名前员工泄露了特斯拉机密数据，声称该员工定期将特斯拉的数据输出给公司以外的人。明星独角兽企业出的事情更容易被传播报道出去，相信还有更多不为人知的案例已经或者正在发生，只不过不为公众所知而言。

二、什么是大数据安全?

通过以上几个维度来看，大数据安全显然不是指SIEM(Security Information & Events Management)这类系统。尽管SIEM描述的景象让人非常期待，企业可以利用大数据处理和分析来自各个IT基础设施、网络设备、业务系统中的数据，从而实时感知企业当前的安全态势，使得企业迅速的有针对性的采取处理措施消灭安全隐患于萌芽阶段成为可能，但这是大数据系统在安全领域中的运用，是“安全大数据”而不是“大数据安全”。

那它和传统的数据安全又有何不同?莫非是因为数据量大到一定规模了之后，量变产生了质变，因此变成了另一个东西?这个问题的答案既可以是肯定的也可以是否定的。

说它是肯定的，原因在于大数据系统要处理的数据体量庞大，大到传统数据处理方式、处理系统无能为力，只能用新的技术架构、新的工具才能完成这一任务，而对应的安全风险和防御举措也都发生了变化，因此确实和和传统数据安全有些不一样。

但也可以说是否定的，原因在于大数据系统本质上也是IT信息系统，传统数据安全的那些实践(例如数据加密、鉴权)在大数据环境下依然适用。

那当我们说“大数据安全”的时候，我们到底在讲什么?我想，至少我们在说大数据系统中的数据的安全。

数据是值钱的，这显而易见。进入到大数据时代后尤其如此。大数据安全必然最关心的也就是数据在整个系统中，从诞生到收集、清洗、存储、分析、消费、存档以及销毁这个生命周期中，其机密性、完整性和可用性不被破坏。

大数据处理和分析系统(也有人称之为大数据平台，下文统称“大数据系统”)中最重要的当然是数据，但与此同时，和数据共生的还有组成大数据系统的各个应用。数据在应用里诞生、流转、被消费，这些应用自身的安全性如何，在很大程度上将直接影响数据的安全性。因此，大数据安全也应该包含这些应用的安全。

光有数据和应用的大数据系统并不能真正发挥它的价值，直到大数据系统将分析处理后的高价值数据反馈给人的时候，在辅助企业做出业务甚至战略决策的时候，它的价值才被最大化。这也就意味着，人也是大数据系统中的重要参与者，一个有价值的大数据系统不应该只是一堆冷冰冰的机器上运行的成千上万个实例，处理着几个T的实时数据，然而却没有任何人使用的复杂分布式系统。

与此同时，人是容易犯错的，这是人的特性(好吧，你要说它是人的Bug也行)。既然人参与了大数据系统，那么确保人在这个复杂的系统中尽可能不犯错、少犯错就显得很有必要了。