首批“网安三新”丨澜砥威胁检测生成式算法入选“新技术”

时间:2025年07月09日

近日,中国网络安全产业联盟公布了首批“网络安全新技术新产品新服务”遴选结果。安天澜砥威胁检测生成式算法作为基于大模型的威胁检测技术,主要面向以PE、ELF等可执行文件为主的多种执行体对象进行检测分析,能输出符合CARO公约的结构化分类命名。既可在大规模样本分析体系、沙箱等异步场景中,作为检测分析能力的增强环节,也可以作为安天AVL SDK反病毒引擎的增值模块,进一步提升检测能力。特别是在类似隔离网等用户难以经常升级,并无法连接公有云查的场景中,有效对抗传统检测引擎的特征效能衰减。依托这些特性,澜砥算法入选第一批网络安全新技术名单。

安天澜砥威胁检测生成式算法获评“网络安全新技术”

澜砥威胁检测生成式算法结合澜砥威胁分析垂直大模型,突破传统安全方案的限制,提供到达病毒家族的精确检测能力。通过模型解码,分析执行体编码、特征掩码和提示词,采用Token生成推理方式,对恶意软件进行行为归纳,提高检测的动态适应能力。其有检测模式和分析模式两种工作模式,在检测模式中,其快速分析与已知恶意代码家族的相似性,结合自动化分数排名机制,从多个检测结果中快速选择最优答案,提高检测精准度,并输出与安天AVL SDK反病毒引擎告警信息结构完全一致的恶意代码分类前缀/环境前缀.病毒家族名[样本核心行为]的告警信息。在分析模式下还可以输出包括类似ATT&CK战术标签,建议YARA规则等信息。

2024年底,澜砥威胁检测生成式算法通过国家网信办备案,成为首个获得该领域备案的威胁检测类生成式算法。

安天一直积极使用和应用人工智能技术,来提升特征工程的质量和效率,进行更高水平的知识生产。2001年,安天开始研发AVL SDK反病毒引擎。2004年实现了全量恶意代码自动化分析,先后在引擎和后台分析场景中探索使用随机森林、决策树、卷积神经网络等机器学习算法。2009年,安天升级改造形成第一代海量恶意代码分析流水线,构建了样本预处理、静态分析、动态分析等环节组成的流水线体系。2013年安天面向移动场景研发了第二代样本分析流水线,形成了面向海量端点的数据分析和能力分发机制,形成了由捕获体系、分析体系、情报与态势体系构成的赛博超脑系统。基于海量样本的深度预处理、元数据化和向量抽取生成,构建海量的高质量向量数据,为澜砥威胁检测生成式算法和澜砥大模型的研发奠定了数据基础和算力基础,为澜砥大模型的训练提供了持续不断的数据。2021年,安天研发澜砥安全算力原型芯片,虽然最终未能进入应用场景,但为澜砥大模型的低算力部署积累了经验。

澜砥威胁检测生成式算法在传统恶意文件检测方式的基础上,进行了多项关键技术创新,突破了特征匹配与传统深度学习的局限,具备以下创新优势:

(1)直接理解执行体二进制对象的专属检测分析大模型

通过调整和优化模型的内部结构,提高了模型对二进制文件的理解能力。通过引入能够有效处理二进制数据的编码机制,并调整模型的注意力机制,使其更聚焦关注二进制数据中的有效信息。

(2)亿级Token上下文支持,二进制数据处理性能千倍提升

将检测文件的大小扩展到数百兆字节级别(亿Token上下文)。VILLM模型相比开源大语言模型,在处理二进制数据时提供500~1000倍的性能。

安天澜砥大模型与常见模型上下文处理长度对比表

(3)字节级多短特征提取,为甄别“幻觉”提供有效支撑

模型在生成恶意代码分类、运行环境、家族名称、行为标签的基础上,可给出生成结果的具体依据(精确到偏移量和字节),为甄别“幻觉”提供更有效的支撑。

(4)模型弹性可剪裁,满足不同算力场景检测需求

在不同算力环境、不同网络联通或隔离条件下,既能发挥传统反病毒引擎体系的高速、精准、可弹性定制剪裁的优势,在威胁检测识别能力方面也具有良好的泛化效果和鲁棒性。