蚂蚁AI SRE三年演进：从SRE智能体到DeRisk风险智能平台

本文以我个人视角记录了近三年在AI SRE领域的回顾。核心主线是：2024年解决「AI能不能做SRE」的问题，2025年解决「怎么做成产品」的问题，2026年解决「怎么让更多人参与共建」的问题。从EKG图谱推理到DeRisk平台，再到MCPs/SKILLs/SPECs生态体系，每年都在前一年的地基上往上盖楼，方向一致，也有不少弯路和妥协。

一句话定义

AI SRE，是用大语言模型和智能体技术重构站点可靠性工程的全新范式——让AI成为7×24小时在线的数字SRE队友，从告警响应、根因定位到故障自愈，逐步接管传统SRE的重复性劳动，最终实现「人负责决策，AI负责执行」的协同模式。

我们的纵向演进：三年三个阶段

产品时间轴

我们在AI SRE领域的探索，从2024年到2026年，大致经历了三个阶段。2025年之前，我们做了不少零散的实践和尝试（包括EKG等），积累了一些经验教训；2025年正式开始做DeRisk平台，把之前的探索整合起来。每一次对外分享，技术路线和产品形态都有变化。回头看，有些方向判断是对的，有些具体方案走了弯路，但整体上是在不断迭代和修正中往前走的。

阶段一：初步探索期（2024，QECon上海站）

背景与起点

2024年，我在QECon上海站做了第一次系统性对外分享，题目是「蚂蚁集团基于LLM的SRE智能体落地实践」。

这个时间点有一个很重要的背景：2024年的LLM推理能力还相当有限。ChatGPT在2022年底爆发，2023年全行业都在探索LLM的应用场景，但当时的模型在复杂多步推理上表现不稳定，尤其是在运维这种需要严谨逻辑链的领域，直接让LLM做端到端的推理决策，效果远不够可靠。行业的普遍做法是「套一个RAG做知识问答」，我们当时的判断是：SRE领域是严谨、专业、私有的，通用LLM给出的只能是泛泛之谈，核心突破口不在RAG，而在Planner。

现在回头看，这个方向判断是对的，但具体的技术方案受限于当时的LLM能力，做了不少妥协。

核心技术：EKG + Tool+ + Code+

2024架构

EKG（Eventic Knowledge Graph，事件知识图谱） 是这一阶段的核心探索方向。它的出发点很务实：既然2024年的LLM无法可靠地完成复杂的多步推理，那我们就用结构化的图谱来「托底」——把专家的排障经验编码为图结构，让Agent沿着图谱路径执行，而不是完全依赖LLM的自主推理。

相比于普通的workflow/pipeline，EKG有一些自己的特色：它支持并发多线程调度（SRE排障天然是并行的——同时查监控、查日志、查变更），携带context、route history、tool history三层记忆，比线性DAG更灵活。但说实话，EKG本质上还是一种预定义的流程编排，和普通workflow的差距没有我们最初期望的那么大。图谱的构建和维护成本不低，而且面对真正复杂的、超出图谱覆盖范围的场景，EKG同样力不从心。

一个我们当时展示的典型场景：「天猫海外支付成功率下跌怎么办？」通用LLM给出的是泛泛的建议，而基于EKG的SRE智能体能走出一条具体的排查路径——选Tool观察业务监控 → 获取负载机器列表 → 观察相关指标变化 → 执行应用切流 → 排查压测流量。这确实比纯LLM的效果好，但这种效果更多来自于预置的专家经验图谱，而非模型自身的推理突破。

Tool+ 解决的是工具调用的工程化问题。不只是让LLM能调API，而是从注册（OneAPI一键录入）、评测（单Tool/多Tool单步/多Tool多步三级评测）、到执行（query改写 → 多轮信息获取 → Embed/LLM召回 → 填参 → 参数校验 → 权限管控）的完整链路。高危场景有人工确认机制，SQL查询支持二次编辑后再执行。

Code+ 的亮点是「代码hijack」——LLM生成分析代码后，在执行前注入真实运行时数据（比如实时监控数据），让静态代码变成针对真实环境的分析代码。这个设计巧妙地解决了「LLM不知道当前环境状态」的问题。

产品化思路：30-60-10公式

这一阶段提出了一个务实的产品化公式：极简模式（解决30%问题）+ 高阶模式（解决60%）+ 评测管理（解决10%）= SRE智能体Release。

不追求一步到位，先用AgentBasic（预置EKG/RAG/Tool）快速覆盖简单场景，再用AgentPro（复盘文档抽取、text2graph转化、团队工具注册）解决高阶场景，最后用AgentBench做系统性评测把关质量。

关键成果

应急复盘工作量减轻80%
明确了SRE数字员工的架构方向：全局风险知识图谱 → SRE团队知识图谱 → 各平台Agent（自愈/资金/PaaS等）

这个阶段的核心洞察

回头看，2024年Tool+的完整工程化链路（注册、评测、权限管控）在后续两年持续复用，成为我们的基础设施底座。

但也要诚实地说，EKG作为具体的Planner实现方案，是特定时期的产物。它本质上是用图谱结构来弥补LLM推理能力的不足——这在2024年是合理的工程选择，但随着2025-2026年LLM推理能力的大幅提升（尤其是o1/DeepSeek-R1等推理模型的出现），这种「用结构化图谱替代模型推理」的思路逐渐让位于「让模型自己思考+工具调用」的更灵活范式。这也是我们后来演进到DeRisk平台的内在驱动力之一。

其他不足：产品形态还比较单一（主要是Web和钉钉），多智能体协同还停留在架构设想阶段。

阶段二：平台化落地期（2025，CSDI Summit）

从SRE智能体到DeRisk平台

2025年的CSDI峰会，分享主题变成了「DeRisk AI原生的智能运维平台实践」。从「SRE智能体」到「DeRisk平台」，我们开始尝试把之前两年零散的实践整合成一个相对完整的产品。

DeRisk的含义是：就像DeBug是找Bug、修Bug，DeRisk要做的是找Risk、分析Risk、解决Risk。定位是「为每个应用系统提供7×24小时的AI系统数字管家」。能不能真正做到这个定位，其实到今天我们也还在验证。

三层智能演进路线

这一阶段提出了清晰的三层演进路线：

基础智能：结合LLM + 技术风险，解决领域知识理解、数据、工具使用等痛点，具备基础的风险分析和处理能力。技术上用RAG + DeepResearch。

中级智能：通过模型蒸馏与持续优化，提升精度与效率。业务上实现自主风控准确定位、分析、诊断。这是从「辅助」到「半自主」的跨越。

高级智能：构建基于场景自适应学习的闭环，从被动响应到主动探测、学习、防御、总结、进化。这是终态愿景。

多智能体架构的工程化

2024年的EKG更多是理论和初步实践，到2025年我们开始尝试把多智能体架构做实际的工程化落地。

组织形式上支持三种模式：Supervisor模式（每个Agent只与一个Supervisor通信）、Hierarchical模式（多层Supervisor）、Network模式（节点间互相通信）。

记忆体系对应人类记忆做了完整映射：感知记忆（Sensory Memory）→ 单条消息；短期记忆（Working Memory）→ 多条消息组成的session；长期记忆（Long Term Memory）→ 跨时间周期的报告汇总体系。

最有意思的是空间组织的设计——TeamMode（子Agent只能看到master指令，单线单聊）和GroupMode（子Agent能看到其他Agent的结论，群聊模式）。这两种模式在实际场景中的差异很大：应急诊断用GroupMode，让各维度的分析Agent互相参考结论；独立任务用TeamMode，避免信息污染。

运维资产积累：知识引擎与工具体系

2025架构

这一阶段我们花了很大力气做运维资产的系统性积累，这是AI SRE落地的基础工作，也是容易被低估的一环。

知识引擎方面，我们搭建了基于IDP（Intelligent Document Processing）+ DeepDoc（深度文档理解）的知识加工管线。可信知识的来源覆盖了六大类：基础知识（技术书籍、项目文档）、Q&A文档（答疑文档、咨询文档）、告警与工单（告警分析处理、异常处理、风险分析文档）、专家认知（领域专家、大佬见解、专业文章/Paper）、库表Schema（Schema、Table、Column、MetaData）、领域元数据（业务链路关系、应用信息等基础元数据）。

知识加工的流程是：知识块处理 → Summary → Tag → 抽取实体/关系图，经过Embedding和Schema Linking后，存入多模统一存储（UnifiedStorage，支持对象、KV、向量、图四种存储模式）。在检索侧，我们实现了混合检索策略（向量相似度匹配、BM25召回、条目权重、关键字、GraphRAG），配合多路知识召回融合和排序。坦率说，这套知识引擎的建设周期比预想的要长，知识质量的把控一直是痛点。

工具体系方面，我们基于MCP协议构建了技术风险领域的工具集，覆盖Metrics、Trace、Log、Code、Change等核心数据源。通用MCP Server由平台团队与各横向平台团队联合共建，包括Monitor-Server（对接监控平台）、Log-Server（对接SLS）、DB-Server（对接DB PASS）、Code-Server（对接AntCode）、Search-Server（对接内外网搜索）、Sim-Server（对接仿真环境）等。

资产规模：到2025年，内部知识体系覆盖了70+领域，内部技能支持超过100+。这些数字看起来还可以，但距离覆盖蚂蚁内部所有技术风险场景还有很大差距。

实践案例：DeepRCA

DeepRCA（深度根因分析）是这一阶段的标杆场景。架构是RCA master调度Trace Agent、Log Agent、Metric Agent、Coder Agent和报告Agent。

构建方法论四步走：定义问题 → 构建知识和技能 → 从单个子智能体开始调试 → 组建多智能体体系。这套方法论在后续被反复验证。

规模数据

指标	数据
日均总任务量	8万+
日均Token调用量	突破3.5亿
月Token消费	突破100亿
内部知识体系覆盖	70+
内部技能支持	100+技能

阶段三：生态化构建期（2026年Q1，GOPS深圳站）

2026年4月的GOPS深圳站，分享主题是「基于MCPs/SKILLs/SPECs的AI风险智能体系演进路径」。这个标题本身就是一个体系性的声明。

MCPs/SKILLs/SPECs：三层分工协作体系

2026生态

三层体系的分工：

MCP层（平台专家建设）：负责整体系统架构设计与维护，构建通用MCP/TOOL，覆盖监控平台、变更平台、运维平台、应急平台。这是基础设施层。

Skills层（领域通用专家建设）：负责各个技术风险领域的SKILL与知识维护，覆盖监控SKILL、性能风险SKILL、容量风险SKILL、变更风险SKILL。这是领域知识层。

SPEC层（业务个性专家/OWNER提供）：维护业务相关的知识和tool，确保技能和工具符合业务需求。这是业务定制层。

MCP：Agent的UI

这一阶段我们提出了一个观点：「MCP工具是Agent的UI」。

传统API设计是给程序员用的——技术参数、原始数据、细粒度单一操作。MCP的设计要像给Agent用的界面——语义参数、结构化洞察、粗粒度完整场景。

一个具体的对比：查询服务健康状态。API方式需要5步调用（查服务ID → 查指标列表 → 查指标数据 → 自行计算聚合 → 组织回复），MCP方式1步搞定（query_service_health(service="order-service")直接返回health_score和insights）。

这个思路在实践中确实带来了不少便利，算是一个有价值的设计方向。

SKILL的四层金字塔

SKILL被定义为四层结构：

元数据（顶层）：技能身份标识、版本、适用场景
工作流定义：步骤分解、决策逻辑、异常处理
工具链声明：执行工作流所需的MCP工具集合
知识引用（底层）：支撑决策的领域知识和案例库

SKILL与MCP的关系是：SKILL是操作手册（上层编排、有状态、跨步骤记忆），MCP是工具箱（底层执行、无状态、单次调用）。知识工程的三步转化——隐性经验显性化、显性知识结构化、结构知识程序化——就是通过SKILL体系落地的。

SPEC：应用画像的探索

SPEC（Service Profile for Emergency Control）是这一阶段我们比较看重的一个技术方向。

SPEC不是一次性配置文件，而是持续从应用代码、监控指标、配置、发布记录、运营水位中自动抽取并更新的应用知识快照。它包含六个维度：Error基线、Service基线、DAL基线、容量模式、链路依赖、应急白皮书。

SPEC解决的核心问题是「AI不了解具体业务」。有了SPEC，DeRisk Agent在分析任何一个应用的问题时，都有完整的业务上下文可用——不需要SRE口头解释「这个服务是干什么的」「它的上下游是谁」「正常水位是多少」。

这是我们尝试从通用AI走向专属AI-SRE的一个思路。在这次GOPS大会上，我没有看到其他公司有类似的设计，但这也可能是因为大家选择了不同的路径来解决同一个问题。

三层专家协作体系

个人域（孵化试验区）→ 成熟后迁移至正式域
    ↓
业务个性专家层（国际支付/数字科技/线上支付...）
    ↓
领域通用专家层（监控/变更/容量/性能/应急/数据库...）
    ↓
平台专家层（DeRisk平台/监控平台/数据平台/Sandbox...）

这个体系的设计初衷在于：每一层的建设者不同（平台团队 vs 领域专家 vs 业务owner），但通过MCPs/SKILLs/SPECs的标准接口协作。它试图解决AI运维落地的一个核心组织难题——不能指望一个中心化团队理解所有业务场景，必须让业务方参与共建。这个思路对不对，还需要更长时间的验证。

实践案例亮点

SKILL+Browser实践：审批助手检测到ODC审批链接，通过SKILL指挥Sandbox的browser工具完成智能审批。这是SRE日常高频低风险审批的自动化。

SKILL并行实践：emergency-diagnosis-trigger作为调度器，识别问题类型后并行调用通用故障定位skill，传入不同诊断参数，将多维度结果整合为一份报告。追求1-5-10（1分钟发现，5分钟定位，10分钟恢复）。

SKILL+Script+密钥托管：Script配套derisk-mist安全托管AK等敏感信息。灵活性与安全性兼得。

规模数据（2026年Q1）

指标	数据
日均任务处理量	10万+
服务时长	7×24小时
MCP/API支持数	100+
接入渠道	Web/钉钉/SDK/API

智能原生风险体系Pipeline

对于刚起步的企业，我们给出了未来18-36个月的一个初步路线图建议：

阶段	时间	内容
01 工具增强期	当前~6个月	Copilot模式，告警摘要/报告生成/根因辅助
02 智能SOP	—	基于LLM的运维SOP，自动化和反馈机制
03 能力重构期	6~18个月	基于MCP/Skills/SPECs重构，Agent协作网络
04 自进化系统	—	从新故障中自动学习，从成功案例提取Skills
05 智能原生期	18~36个月	全面AI Native，跨域协作，持续自我进化

三年演进的核心脉络

把三年串起来看，有一条清晰的演进主线：

2024年解决的是「AI能不能做SRE的事」的问题——答案是能，但不能用ReAct线性推理，要用EKG图谱推理；不能用通用工具调用，要用Tool+工程化体系。

2025年解决的是「怎么把它做成产品」的问题——从单点智能体到DeRisk平台，多智能体架构工程化落地，知识引擎和工具体系的系统性建设为后续打下了基础，日均8万+任务验证了产品可行性。

2026年Q1解决的是「怎么让更多人参与共建」的问题——MCPs/SKILLs/SPECs三层体系让平台团队、领域专家、业务owner各司其职，SPEC让AI真正理解每个应用的业务上下文，日均10万+任务证明了规模化的可能。

每一年的进化都不是推倒重来，而是在前一年的地基上往上盖楼。2024年的Tool+体系在2026年Q1进化为MCP层，2024年的EKG在2025年进化为多智能体架构，2025年积累的知识引擎和工具体系在2026年Q1具象化为MCPs/SKILLs/SPECs三层协作框架。

总体来说，方向是一致的，每一年都在前一年的基础上迭代。当然，这里面也有不少弯路和妥协，并没有听上去这么顺畅。

起飞就起飞

目录