计算机病毒分类命名知识百科上线试运行(安天研究院出品)

时间:2023年08月28日    来源:安天


今日,安天正式上线计算机病毒分类命名知识百科(域名Virusview.net),百科以计算机病毒(恶意代码)的结构化命名为索引和框架,已经上线超过五万种计算机病毒家族信息词条,基本在家族级别实现了完整覆盖,现有计算机病毒和恶意代码的1300万个变种,基本都是这些家族的成员。这些知识词条是安天赛博超脑通过样本分析的特征向量积累自动化生成的,这一工作是安天以共性能力和公共知识赋能产业计划的一部分。安天公众号转发安天研究院编写的Virusview.net网站的About信息。以让更多人了解相关工作。

安天上线计算机病毒分类命名知识百科(域名Virusview.net

关于计算机病毒分类命名知识百科

安天研究院

计算机病毒分类命名知识百科,简称“计算机病毒百科”(域名Virusview.net),是安天研究院面对业界、研究机构和公众开放的计算机病毒/恶意代码公共知识资源,这套资源基于严格的分类命名索引展开,基于安天的恶意代码八个基础类别作为一级分类、按照现有恶意代码家族的环境前缀逐层展开,目前颗粒度到达病毒家族一级。目前有家族知识词条超过5万个,基本覆盖了超过99%的计算机病毒/恶意代码已知家族,并迭代持续更新。

1986年,第一个IBM-PC体系下的计算机病毒产生,标志着信息安全的对抗从原始的操作对抗进入到代码对抗。今天计算机病毒的概念和全貌都已经发生了巨大变化,其已经不是原有简单的感染宿主的代码片段,而外延成为以恶意目的编写或运行后能实现侵害行为和后果的代码和数据,其学术上的名称也往往被恶意代码所代替。从安天创业的2000年,我们看到恶意代码种类数不超过几千个家族的三万个变种,有效样本约数万个,到今天已经有超过五万个家族,一千三百万个变种,可以映射到超过百亿恶意样本HASH空间。

而提供恶意代码的精确命名与配套的知识体系,是从最早的反病毒领域到网络安全业界的重要工作。1991年的CARO会议奠定了关于计算机病毒命名的初始行业共识原则,提出了最初的四段式命名法则,业内称之为“CARO公约”。基于CARO公约,卡巴斯基、赛门铁克、趋势等安全厂商基于自己的命名体系,提供了带有自身特色的恶意代码知识资源尝试,其中比较著名的包括卡巴斯基的Viruslist等等。但由于病毒/恶意代码的快速海量膨胀,不同安全厂商在处理方式和命名标准上都存在很大差异,这就使恶意代码统一命名成为一种不太现实的工作。特别是CARO公约形成于感染式病毒为主流的DOS时代,其既留下了精确分段命名的遗产,但也留下 “分类”概念缺失的遗憾。这就使计算机病毒的知识体系缺少一个相对统一的科学的分类知识框架。

因此我们也希望跳脱出作为一个反病毒引擎研发组织的本位视角,站在一个公共所需的安全知识体系的角度,来尝试做一些相关工作。

历史沿革

我们希望将计算机病毒的相关信息转化成一个公共知识体系的想法始于2001年初,我们在规划ArrectNET预警监测体系中,也规划了一部分知识化工作,我们注册了Virusview.net的域名,并最初命名为“病毒观察”。我们把我们在分析响应工作中,积累分析结果转化为描述文字和一些状态标签信息。我们还和《计算机应用文摘》一起开设了“病毒观察”专栏并编写连载。

早期病毒观察网站截图

在2006年开始,我们尝试基于静态的自动化分析结果,构建一个配套的知识体系,并把其作为一种副产品提供给使用安天AVL SDK反病毒引擎的合作伙伴,我们开放了一个面向合作伙伴的平台,来查询和支撑相关信息。这就是最早的分类命名知识体系。

随着2012年安天的算力成长,我们开始从最早的ArrectNET的自动化分析开始构建一个大规模的算力平台“赛博超脑”,此时我们已经能够让动态沙箱分析覆盖更多样本。在2012年,我们进行了第二个版本的更新,利用安天引擎的解析结果和自动化分析平台对恶意代码的行为分析,并自动输出结构化的恶意代码知识描述信息。此后由于我们的精力问题,我们没有坚持和维护,导致virusview一直处在没有后续更新的状态。

2012年的Virusview.net

从2001年开始研究恶意代码自动化特征提取开始,我们一直追求的是以自动化作为威胁对抗的主闭环,并不断把人的经验迭代到特征工程中去,我们一直追求的是用更高水平的自动化,适应代码对象的复杂性成长和对象的规模膨胀。今天我们也在进一步强化基于场景的复杂性实现高水平的自动化。我们为此持续改善赛博超脑,不断增强算力与存储能力,我们在原有的近4万个CPU核的基础上,开始逐渐增加GPU算力。病毒百科的正式恢复,就是我们用大模型改善特征工程和知识工程质量的一个“副产品”。当然,目前的工作距离我们的目标还是有着巨大的差距,我们期待根据工业界和研究界的需求来迭代改进。每天约有3000个词条会自动更新,我们后续会再充分完善和丰富家族命名词条的质量,未来也有计划将知识体系开放的颗粒度从变种一级到达HASH的知识。

关于的关于

由于我们的经验水平所限,加之病毒百科是自动化生成迭代的,其必然有很多不严谨之处。最后想告诉大家的是,本篇“关于计算机病毒分类命名知识百科”,这是整个百科所有页面中唯一不是由“安天赛博超脑”自动化生成的内容,事实上我们曾尝试让本页也基于我们一些信息输入来自动产生,但输出的结果总是不能令我们满意。平台输出的内容很有条理,很清晰,但总是缺少什么?

有人问我们安天的赛博超脑是什么?

它以巨大的吞吐能力分析安天每日新增的数百万个新的威胁样本,并根据算法和工程师的预设条件发现隐蔽的威胁,它以我们难以想象的速度和难以理解的方式遍历并塑造海量的特征与知识体系,它持续产生威胁监测的特征与范式并发布升级。它是我们每天工作所依赖的平台。

它难以真正理解我们那些放在人类信息技术演进中十分微渺,但我们又为之奉献了青春和智慧的工作历程;它难以获得实现有效防护价值时工程师的内心荣誉和成就;它难以连接工程师团队与威胁在刀锋对抗时的热血与情感。

所以人类信息社会的历史永远是人机工程的演进史,我们相信未来的计算机病毒百科也是如此。

安天研究院计算机病毒百科兴趣小组
2023/08