冬训营丨统一工作负载防护——智甲云主机安全的运营闭环实践

时间 :  2022年01月27日  来源:  安天


1.云上的安全威胁:扩散、复杂、新挑战

近年来数字化转型带来了IT的飞速发展,新业务新需求不断增长,服务、应用增速部署,高速发展的同时也暴露出更多的安全问题。而随着云计算的不断发展普及,云上风险开始进一步扩散,也带来了更多的攻击面。系统、虚拟化组件、编排平台、容器、运行时环境、中间件等多个方面的风险也在不断增加,给个人、企业及相关监管部门带来了更大的挑战。

从公开的统计数据来看,21年cve漏洞数量创历史新高,多达2万多个,从公开的部分操作系统和云场景漏洞数量统计来看:Windows,新增漏洞年复合增长率为10.5%;Linux,年复合增长率为3.7%;云原生系统和应用漏洞,年复合增长率为8.9%;显然,云原生系统和应用漏洞的增速已经开始逐步赶超传统操作系统。

近五年漏洞增长趋势图 数据来源:cvedetails.com

Windows主机系统、Linux主机系统、及云原生系统和应用统计子项说明表

国外的专家团队通过对4千多个编排模板和3.8万多个编排文件进行了分析,其中63%的模板包含一个或多个不安全配置,近50%包含至少一个关键或高度不安全的配置。这些模板、文件分别是来自CSP,供应商和开源开发者在对300名云专业人士,包括:云工程师、云安全工程师、DevOps和云架构师的调研中发现,云的错误配置是一个由许多原因引起的,但所有这些原因都可以归结为这样或那样的人为错误。

企业云环境是巨大而复杂的,这为重大错误创造了许多机会。也给云运维者和安全团队带来巨大的挑战。Gartner 预测:到2025年,超过99%的云泄露,将被追溯到可预防的配置错误或终端用户的错误。

<从另一个角度看,ATT&CK 近一年间,云相关的攻击技战术共增加了24个大项、33个子项,增幅近60%,可见与云相关的攻击方法演变之快。而操作系统方面增幅为12%,从整体占比来看,云场景占比持续走高,云安全威胁显著增长。

ATT&CK 框架新增攻击技战术分布图

近一年战术变化比例图 数据来源:mitre.org

实际上ATT&CK某种程度上也不是完美的,黑客利用 Kubernetes 特性,将恶意容器注入到集群kube-system命名空间已有的DaemonSet中,实现对每个集群动态注入恶意容器,从而进一步控制整个容器集群的案例中,这样的攻击方法在ATT&CK中是未完全覆盖的。

通过一系列的数据表明,云原生的市场应用,增长加速、占比持续提升,在相关技术的发展同时,已逐步被市场广泛的接受,但在客户场景中,“共存”成为了IT的新常态:在基础设施方面,云和传统IT共存;业务上,敏态业务、稳态业务共存;云原生技术上,虚拟化主机和容器、容器云是共存的。

根据Gartner的分析,cwpp的防护体系需要具备反病毒、入侵防护、漏洞防护、应用监控、主机防火墙等等诸多安全能力。并且云上通常面临海量的资产、异构的资产、分布式的资产,同时又必须解决算力消耗低、业务中断风险低等诸多问题,更需要多种融合技术才能实现。

以主流的开源/免费安全工具为例:

1. 多个开源或免费的工具堆叠后,难免会功能冗余和彼此干扰,导致功能失效或缺失;

2. 不同工具之间的规则库格式不通用,加大了运维难度,并会产生海量日志,且格式不统一,导致清洗、降噪、关联分析难度增大;

3. 通信格式也是五花八门,很难集成和落地;

4. 这些工具的堆叠会生成很多进程,导致云环境下进程资源的限制难度增大;

5. 每个工具可能有一些未知的 漏洞和缺陷,部署到云环境后,会暴露了更多的攻击面。

2.安天的解决方案:统一工作负载防护

实际上整个安全运营过程至少要包含:资产清点、风险检查、加固|缓解、安全防护、威胁检测、猎杀调查、综合决策、响应处置等几个关键步骤除此之外,实现一个完整的运营闭环支撑,还需满足低业务影响这个前置条件并可适应复杂应用场景;对异构资产做到细粒度识别;集成了多种安全能力;能满足新兴安全需求;并做到自动化和可见性的提升。

安天 安全运营模型框架图

据此模型框架,安天的统一工作负载防护产品,支持物理机、虚拟机、容器等多种工作负载,在多云、混合云场景下,满足用户统一安全防护的需要。并涵盖资产清点、风险发现、合规基线、容器安全、微隔离等5项功能以支撑安全治理闭环。以威胁检测、入侵防护、事件调查、威胁溯源等5项核心功能,并配套安全评估、安全运维、监测分析、威胁猎杀、应急响应等安全服务支撑检测响应的安全运营闭环。

安天 统一工作负载安全防护产品体系

产品具备细粒度的资产识别能力,支持Windows、Linux各发行版本下的基础软、硬件环境信息的自动识别,可对账号、进程、开放端口以及各类主流应用信息等9大类 38小类 200余种工作角色标签的自动化采集和跨环境集中可视化。并且,在容器高弹性伸缩的特性下,产品支持容器、集群、镜像、镜像仓库、节点、POD等容器云资产的自动化持续识别支持容器内资产的分层、分类集中可视化,帮助用户从整体安全角度细粒度观察容器类资产运行状况并支持微服务、及相关API的自动发现。同时,产品能够自动将大于90天未使用的镜像标记为陈旧镜像,提示管理员进行删除回收。

产品部分截图-资产清点

在风险发现与检测方面,产品内置超过10万漏洞,具备主流操作系统、数据库、中间件、大数据平台等的漏洞发现能力,并支持发现Top100常见弱口令,且支持自定义弱口令等风险配置发现,以及容器集群风险的检测。

产品部分截图-风险发现

产品的全自主威胁检测引擎为全球近百家合作伙伴所选用,为超过100万台网络设备和网络安全设备提供威胁检测能力,覆盖全球29亿部手机设备和全国半数以上防火墙节点。

在情报联动方面,安天威胁情报囊获了域名、邮箱、URL、漏洞知识库等种类繁多的情报类型。并且收录了近5年全球热点威胁事件,超过300个全球化攻击组织,帮助用户实现精准的威胁分析和攻击溯源,拥有来自全球超过100个优质威胁情报源的海量数据支撑。

安天基于持续身份认证技术的应用级微隔离技术方案,不仅有效的避免了单点故障隐患,在环境的适配、隔离粒度、容器支持等多个方面都是最优的方案,并能够很好的适应各类的云上业务快速变化。

常见微隔离技术对比图

为能够实现业务流量的可见性,支撑安全运营闭环,产品提供了基于用户业务层次的网络空间地图。

产品部分截图-微隔离业务地图

对于全生命周期的容器安全防护。

在容器的开发构建阶段:产品可对本地镜像以及镜像仓库进行全方位的安全扫描,并对镜像内容进行细粒度的识别,包括组件和应用等详细信息。具备节点漏洞、组件漏洞、应用软件漏洞的检测能力。参照CIS基线标准,内置了约100余项出厂基线检测规则,同时支持自定义基线检测模板。

在容器部署运行阶段:产品支持容器黑白名单、特权容器防护、特权端口映射防护、敏感文件映射防护的容器启动防护功能。支持容器内非法进程、反弹shell、容器逃逸、恶意行为等动态行为监控,并支持基于容器行为识别模型的异常行为检测,以及黑名单容器的容器运行防护。

产品容器安全部署示意图

3.云上的安全治理闭环:可见性和自动化

在用户业务架构愈发复杂,海量、异构资产并存的现状下,为能够更好的应对云上的各种安全威胁,充分的可见性与高度的自动化,能够使云安全治理“化繁为简”。

以安天在最近爆发的Log4j漏洞自动化响应为例,通过分析 Apache Log4j某些地方存在递归解析功能,攻击者可直接构造恶意请求,触发远程代码执行漏洞。

从最近公布出来的恶意组织Conti对Log4j漏洞利用的ATT&CK技战术覆盖分析来看,已呈明显的复杂化。

Conti对Log4j漏洞利用的ATT&CK技战术覆盖分析图

利用常见修复方法和相关工具进行加固,在面对海量的云上资产时,安全运维工作将“举步维艰”。安天云主机安全系统,能够通过简单的4步自动化、智能化的辅助安运维人员快速的排查云主机、容器在此漏洞方面的安全风险:

1. 海量资产中快速清点含Log4j相关的应用;

产品部分截图-Log4j漏洞风险资产

2. 通过漏洞扫描,自动统计出暴漏出云资产中的含Log4j漏洞的应用;

产品部分截图-Log4j漏洞应用

3. 通过资产基线核查的功能,详细梳理出存在风险的资产,确保修复计划合理覆盖所有风险资产;

产品部分截图-Log4j漏洞基线核查

4. 容器云环境下,对本地镜像和镜像仓库进行漏洞与安全基线检测,设置策略阻止含风险镜像启动;对运行中的容器进行风险扫描,确认线上容器是否已经存在风险,同时自动发现、自动扫描线上的微服务API是否存在安全风险。

产品部分截图-Log4j漏洞风险容器镜像

网络上已经公开多种WAF绕过方式,单纯使用WAF阻断很难达到效果。而禁用Log4j组件容易造成业务系统故障,尤其是老旧系统。而热补丁方案可实现批量化处置,并且无需重启java服务,不会对业务系统造成影响,是较为可行的临时解决方案。

安天智甲云主机安全系统同时提供了自动化主机热补丁、和自动化容器热补丁两个方案。

主机热补丁方案原理图

主机热补丁方案原理图

零信任框架中的核心理念是:构造应用访问的最小依赖关系,并通过持续认证的技术手段,限制攻击者的横向移动范围并减小攻击面。在老旧系统、核心资源面对0day漏洞的挑战时,此架构标准下微隔离的价值将得以体现。

对全网业务流量实施“持续认证,非授权,不放行”的网络微隔离策略。使得上述场景中,攻击者(通过RCE等方式)在访问额外的网络资源时及时被阻断,同时洞察非授权的网络访问行为并及时告警。通过限制攻击者的网内横向移动行为,从而规避或者缓解失陷主机带来的威胁面扩散风险,为业务应用建立长效的防御边界。

此外,对于形成安全治理的闭环,我们认为仅仅增加了自动化手段是不足以支撑的,可见性则是提供了基础保障。首先,进程、软件包、Web应用等资产的细粒度识别是安全治理的基础。其次,洞察上述云原生和应用风险,方可合理实施风险加固。最后,支持多种基础设施共存场景,尤其是容器内资产识别,才能精准建立防御边界。、

在数字化转型发展比较快金融、证券类行业领域,以某证券公司为例,做全部主机资产与容器资产对比(总占比):

进程方面:主机占总资产的57.6%、容器占42.4%

软件包:58.8%、41.2%

Web站点:53.8%、 46.2%

Web应用:20.8%、 79.2%

漏洞:19.3%、 80.7%

显然,只有充分的可见性才能保障形成真正的安全治理闭环

某证券公司全部主机资产与容器资产对比统计表

4.检测响应的运营闭环:多层次和自动化

随着网络高级威胁层出不穷,攻击形式更加迅速、隐蔽,传统基于特征值进行检测的安全手段无法满足企业信息安全的需要。企业和组织的管理层大都承认不存在完美的防护,希望寻找基于端点、网络、用户的方法去获得高级威胁检测、调查和响应的能力。

安天 检测与响应模型框架图

其中,平均检测时间(MTTD)和平均响应时间(MTTR)已经成为了衡量安全对抗效果的重要评价指标。而事件调查和威胁猎杀的自动化能力又是影响指标的关键因素。如何在异构、海量的工作负载背景下实现运营闭环的基础保障,除了各种自动化分析引擎,还要有基于主机的自动关联和基于跨机的自动关联以及结合沙箱、威胁情报的关联分析。

同时我们还要考虑算力调度,自动化落地的基础保障,包括:采集上的算力优化和分析调查上的算力优化。

安天 自动化检测与响应关系模型图

安天的威胁检测与响应方案,实现安全事件从发现、分析、决策、行动的完整闭环:

1. 通过识别各种异构工作负载与应用业务,提升资产可见性;

2. 容器安全实现容器全生命周期管理;

3. 结合细粒度资产清点进行风险发现,提升风险可见性;

4. 提供风险的缓解措施并结合入侵检测,提升事前攻击难度;

5. 攻击的过程中,微隔离可以发现网内的横向移动风险;

6. 在攻击的事后阶段,通过恶意代码防护对恶意代码进行处置;

7. 结合关联分析以及UEBA等威胁模型分析,来提升对入侵威胁的进一步检测能力;

通过这种多层次的检测与防御,形成面向复杂场景的业务操作闭环。

安天 检测与响应逻辑架构图

以某客户感染挖矿病毒为例,传统的事件响应和处置步骤一般包括:可疑行为捕获,可疑进程关联,海量日志分析,查找恶意程序,分析恶意程序,定位攻击源等一些列繁琐的作业,而后,再进行相应的处置操作。

上述工作内容多数由人工作用完成,由此可见,大量的人工操作效率和效果低下;无法应对云环境下,特别是容器全生命周期的安全需求;且无法应对海量资产的多维度批量安全处理需求。更无法长期有效的支撑安全运营闭环。

传统事件调查与响应处置流程示意图

在使用安天的多层次、自动化的解决方案时:

1. EDR告警事件;

产品部分截图-EDR告警

2. 选择这挖矿病毒事件,使用事件调查功能,进行自动化的进程、文件关联,并以图形可视化直观展示出来进程调用关联关系;

产品部分截图-本地事件调查

3. 为了分析事件的影响面,我们进一步做全网调查。根据相关IOC指标,进行关联分析,检索失陷主机;

产品部分截图-全网事件调查

4. 找到所有失陷主机,就可以使用响应处置,这里,我们可以针对主机进行风险加固,实施细粒度微隔离等等处置措施。

最终,多层次和自动化的威胁检测与响应方案,给我们带来了高效的安全事件处置能力。

5.更完整、持续的运营闭环

安天统一工作负载防护解决方案不但实现了检测与响应的闭环,也能够支撑企业级的更完整、连续的运营闭环。

智甲云主机安全系统,能够支撑完整的安全运营业务,实现安全运营的闭环,包括了安全运营闭环所有的业务环节,如:清点、加固、防御、检测、响应等等。内置的RBAC角色控制,方便不同角色的运营人员协同服务。可视化的交互界面以及挂图作战模式,能够方便运营人员聚焦自己的业务,提高工作效率。同时云主机安全系统也支持各自API接口、日志接口,这样可以方便的实现和SIME、SOC 或者态势的集成 ,以及统一协同管理。

智甲云主机安全系统持续运营支撑逻辑框架图

产品能力提高计划示意图

过去的一年是安天云安全充实、而丰收的一年,产品获得了业内的认可和诸多用户的认可,但这却标志着安天新的起点,我们期待有更多的合作伙伴,我们期待更多的客户,我们期待彼此的成绩、共同成长。