安天澜砥大模型登顶CyberSec-Eval评测榜

时间：2025年10月09日

2025年10月8日，权威网络安全大模型评测平台CyberSec-Eval更新了CS-Eval数据集的评测结果。安天澜砥威胁检测分析垂直大模型（N2-1008版本）以91.51的平均分综合成绩排名第一，并在业务连续性与应急响应恢复、安全架构设计、漏洞管理与渗透测试、AI与网络安全评测中取得四个单项第一名或与单项第一持平成绩。

▲ CyberSec-Eval综合排名TOP10

CyberSec-Eval（CS-Eval）基本情况介绍

CyberSec-Eval（CS-Eval）是目前国内外最具代表性与专业性的网络安全大模型评测基准之一，由阿里安全、复旦大学、中国科学院大学联合构建，在2024年上线，目前基于CyberSec-Eval2024年5月的数据集进行评测。

该榜单测试具备以下核心特点：

覆盖全面：涵盖11大类网络安全领域、42个子类任务，覆盖知识型与实战型双重维度；

贴近实战：聚焦真实安全场景下的理解、推理与决策能力评估；

客观公正：采用标准化测试集与评分机制，为行业提供可比对、可复现的参考依据。

数据集构建团队引入了OpenAI、LLaMa、智谱AI、Mistral AI等国内外主流通用模型作为对比。鹏城实验室、中科院大学等知名研发机构，阿里云安全等互联网安全团队，启明星辰、奇安信等知名安全企业陆续加入测试，榜单排名也反复更迭变化。

➢ 榜单地址：

https://cs-eval.com/#/app/leaderBoard

安天澜砥垂直大模型参测之路

安天澜砥威胁检测分析垂直大模型N2分支基于安天自研的模型结构结合DeepSeek V3 的权重迁移训练而来，于2025年9月9日首次提交测试并于次日公开，综合排名进入前三。团队综合使用增强学习、前缀微调和经过修改的StableSPAM优化器，进行持续改进，并根据评测结果补充了相关领域的语料。在经过近30天的持续训练后，于10月8日以综合成绩91.51分登顶，获得榜单综合平均排名第一。

▲ 安天澜砥威胁检测垂直模型各分项得分情况

安天澜砥模型单项成绩排名和与最高分对比表（单项排名第一或持平的为红色）

细分领域	单项最高分	安天澜砥单项得分	单项排名
系统安全及软件安全基础	93.67	93	4
访问控制与身份管理	91.76	89.27	7
加密技术与密钥管理	94.16	93.07	4 与第一同分
基础设施安全	93.51	92.51	3
AI与网络安全	95.05	95.05	1
漏洞管理与渗透测试	92.07	92.07	2 与第一同分
威胁检测与预防	92.99	91.88	6
数据安全和隐私保护	90.67	88.69	4
供应链安全	95.35	94.68	3
安全架构设计	90.73	90.73	2 与第一同分
业务连续性与应急响应恢复	88.33	88.33	1
中文任务	91.59	91.59	2 与第一同分
英文任务	90.41	90.41	2 与第一同分

附录：澜砥威胁检测分析垂直大模型技术优势

安天自主研发的澜砥威胁检测分析垂直大模型主要面向二进制、脚本等对象进行分析鉴定，突破开源模型局限，将检测文件的大小扩展到数百兆字节级别(亿Token上下文)，在处理二进制数据时提供500~1000倍的性能。

安天澜砥模型单项成绩排名和与最高分对比表（单项排名第一或持平的为红色）

安天澜砥大模型与常见模型上下文处理长度对比表

澜砥威胁检测分析垂直大模型基于安天赛博超脑20余年积累的海量样本特征工程数据训练而成，训练数据包括文件识别信息、判定信息、属性信息、结构信息、行为信息、主机环境信息、数据信息等，支持对不同场景下向量特征进行威胁判定和输出详实的知识理解，形成应用不同需求和场景的多形态的检测方式，提升后台隐蔽威胁判定能力，进一步为安全运营赋能。

澜砥威胁检测分析垂直大模型解决了大模型二进制理解能力衰减问题、上下文长度限制问题，突破传统生成式大模型依托文本语料限制，直接理解二进制上下文，检测威胁，实现了较强的威胁泛化处理能力。

基于澜砥威胁检测分析垂直大模型的生成式威胁检测分析算法，解决了传统的基于低阶静态特征或简单规则的检测手段，同时突破了人工智能分类模型的家族数量限制（常见模型分类为黑白或数百家族，目前安天自研模型已经可以分类超过5万种家族，且从机理上没有家族数量的限制），在学习了千万级别样本的知识后取得了出色的泛化能力，在面对新型和动态变化的恶意代码时实现了强鲁棒性与传统检测方法的良好互补。

通过“叠加创新”的设计理念，澜砥威胁检测分析垂直大模型在赛博超脑侧与安天特征工程和知识工程体系融合，提升了运行质量。在客户侧，通过端侧大模型技术，作为安天引擎的增强插件，为安全产品提供更强的威胁鉴定能力。