数据安全VAR—千里湖_云集至-全数据安全服务商

数据安全VAR—千里湖

2023.04.13 756

梅西封神，世界杯精彩落幕，我们也趁机通过聊聊足球比赛中经常发生的越位悬案来更好地理解数据安全建设。在球场上，裁判员常常会处理一些疑似越位事件，尽管现在有VAR（Video Assistant Referee）视频助理裁判技术的接入，也需要多个摄像头从不同角度来回放判断是否越位犯规，而且还需要多个角度整体关联起来一起判断，才有利于裁判做出公正的判罚结果。

随着数据安全的重要性凸显，很多组织机构纷纷在其业务环境里上了诸多安全设备，比如网络防火墙，WAF，DLP，应用审计，数据库审计等，这些设备的作用各不相同，就好比足球比赛中的摄像头，会从不同角度去记录一场“球赛”，一旦发生争议判罚，不同角度的影像记录+先进的VAR可以保障裁判的“公正”判罚。

千里湖应用场景

数据保护越来越重要，但做好数据保护有个前提——得“了解”数据，只有了解我们在保护什么数据，哪些是核心敏感数据，保护才能做到有的放矢的。有效地存储和高效的找到我们关心的数据，是数据安全建设的重中之重。

云集至拥有全行业丰富的数据安全建设经验，结合建立数据安全能力底座的具体实践，引入了“千里湖”的产品概念。千里湖的核心价值在于，解决海量日志缺乏统一管理、数据安全事件难分析的痛点，打破“传统数据各自独立存储，表现为一个个独立的数据孤岛”的局限，让数据安全分析和溯源的过程不再困难。具体表现：

1、解决目前大多数企业存在大量安全设备无法统一集中分析的痛点。每一台安全设备日志都是一个数据孤岛，需要通过集中搜集、处理、分析能最大限度利用好现有安全设备（日志）。

2、解决分析数据安全事件过于场景单一化的问题。传统的数据安全设备只针对单个场景进行审计、分析、防护。通过所有安全设备的日志聚合分析后，平台可以还原数据安全事件的全貌，包括网络侧，应用侧，数据库侧所涉及到的问题和影响。

3、解决分析场景过于固化的问题。通过强大的数据分析能力，针对所有日志数据进行SQL分析，分析结果直接以图表可视化的形式展示。

4、解决数据流向追踪的问题。通过三级流向可视化溯源，清楚描绘企业终端业务人员-业务系统-数据库之间的数据流转关系，对于违规操作的人员进行告警，及早发现数据安全事件。

再举个例子，某用户通过暴力破解登录了企业内部的VPN系统，这时候如果对VPN日志做了风险监测，我们可以得到一则类似于用户暴力破解登录的异常告警信息，但仅限于此。对于更值得关注的信息，比如该暴力破解的用户登录企业内网后：1）干了哪些具体的事情？2）有没有窃取敏感数据？3）造成了什么样的后果？单从这条异常告警信息中很难得出结论。针对这种场景，千里湖在搜集日志的同时，除了对VPN日志进行富化清洗加工，还针对和VPN日志可能有关联的后续日志做关联分析。常见的场景有数据库访问行为（数据库审计日志，数据库防火墙日志），HTTP请求等（API审计，Waf日志等），可以想象为我们对一个暴力破解的恶意用户建立起了一个会话（session），这个会话会记录这个恶意用户的多个维度的操作。有了统一的会话标识后，相当于将数据安全防护审计设备进行了数据关联，从底层数据上优化了数据质量。

如果说各种安全设备好比一台台摄像机，肩负着安全事件监测的使命，这个过程产生的海量日志如果无法被统一管理，它们就会像是一个个的孤岛，难以发挥作用。云集至推出的千里湖产品，作用就是对海量日志进行统一管理分析，当安全日志类的数据入湖后，经过数据加工后变得好看、好用、易用，从而帮助最终的安全事件分析。数据安全建设和管理想要做到高效有序，利用千里湖来建立一套统一管理分析机制势在必行：

● 汇聚各种安全设备的日志

● 对日志中的数据进行清洗加工富化

● 建立起各种日志之间的关联关系

● 建立元数据管理中心

● 持久化日志存储

● 优化分析日志的时间

千里湖模型概念

数据源：包含各种结构化，非结构化的数据、日志、网络流量等。

数据接入层：做数据接入，汇聚日志，作为千里湖的入口。

原始数据存储：分为原始数据和转换数据，原始数据是最终安全事件溯源的依据，同时也是合规的要求，转换数据是经过归一化后用作后续整理分析的数据。

数据整理：包含数据处理、数据关联、数据发现等模块，最终形成一个有内在关联关系的数据。

事件识别： 安全事件模型分析建模。

数据呈现：可视化大屏。

千里湖技术应用

1.日志汇聚：使用kafka做缓存：

解决海量日志吞吐性能瓶颈，kafka作为经典的消息中间件，有着出色的吞吐效率；
解决日志种类繁多，难以管理的痛点，针对每一种日志单独建立一个topic，后续针对单个日志（topic）做消费处理；

2.日志的数据整理：

对脏数据，重复数据做处理，提升数据质量；对数据做富化处理，增加数据的实际应用价值，比如一个IP可以通过转换提取出所在的物理地址，针对数据跨境做评估，以及对应的经纬度信息，后续做可视化；
对日志字段进行归一化处理，同一种安全设备，比如数据库审计，每个安全厂商的日志字段名可能有所不同，但是内容大同小异，在这里建立一个统一的日志字段调整机制，统一每种日志的字段名，对后续分析是必要的；

3.日志关联：采用时间关联+特征模糊匹配关联技术

针对现实世界的用户操作行为，可以针对日志的先后时间线来整合多种日志，比如一个用户应该是先登录VPN，然后再进行应用访问，最后产生数据库访问行为，这一类是时间场景关联，主要元素为IP加上时间；
时间场景关联有个弊端——关联的准确性不佳，在时间场景关联基础上增加模糊匹配关联，比如用户进行一个WEB请求，产生的请求参数往往也会在数据库的SQL语句里面体现，这里也可以做关联修正；

4.持久化数据：选用Hadoop

安全设备日志往往要求存储6个月以上，因此建立一个高可用、有容灾机制的分布式存储是必要的，这里选用HDFS；

5.数据分析查询

查询数据分为实时数据查询和历史数据查询，针对于实时数据是指在kafka里面的数据还没有最终进入分布式存储的数据，可以做一个实时查询引擎；
查询历史数据可以选择列式数据库来增加查询性能，同时针对时间做特殊索引优化。

云集至千里湖产品，是一款真正体现数据安全治理思路的数据安全管理设备，也是数据安全底座能力的体现，它突破了单点数据安全防护设备的局限，通过整合海量日志并作出数据整理与分析，将数据价值和事件分析结果进行模型化处理和可视化呈现，从而高效释放数据安全能力。

上一篇：信创加速度|云集至6款产品与人大金仓国产数据库完成兼容性认证

下一篇： 2022小结|初心如磐不敢旁骛，始终为客户需求而生

新闻中心

数据安全VAR—千里湖

千里湖应用场景

千里湖模型概念

千里湖技术应用