本文深度对比分析了当前 AI-SRE 领域的两条技术路线:以 Resolve AI 为代表的”AI 工程师”路线,和基于因果推断的”AI 医生”路线。核心观点是:AI-SRE 的目标应该是赋能 SRE,而非取代他们。
一、背景
本文源于对 Resolve AI 和我们之前讨论的 AI-SRE 技术路线的深度对比分析。Resolve AI 是近期获得 $40M Series A Extension 的 AI-SRE 创业公司,代表了当前 AI 运维领域的一个重要技术方向。通过对比分析,我们希望澄清一个核心理念:AI-SRE 的目标应该是赋能 SRE,而非取代他们。
二、Resolve AI 技术路线分析
2.1 公司概况
| 属性 | 详情 |
|---|---|
| 定位 | “AI for prod” — 生产环境的 AI 工程师 |
| 融资 | $40M Series A Extension |
| 核心能力 | 处理告警、根因分析、故障排查 |
| 客户案例 | Coinbase, DoorDash, Salesforce, MongoDB, Zscaler |
2.2 技术架构
Resolve AI 的工作模式可以概括为:
告警到来
↓
AI 自动调查(收集日志、指标、追踪)
↓
AI 生成根因假设和修复建议
↓
SRE 审核/执行
核心能力:
- 参与每一次 on-call 轮值:自动调查事件,在 SRE 介入前建立初始假设
- 多假设并行验证:同时追踪多个可能性,基于真实证据验证
- 生成可执行方案:代码片段、PR 草稿、kubectl 命令
- 知识沉淀:帮助新成员快速理解系统
2.3 价值主张
Resolve AI 的核心价值主张可以概括为:
| 维度 | 价值 |
|---|---|
| 效率 | MTTR 降低 60%,调查速度提升 87% |
| 体验 | 减少 on-call 压力,工程师专注于高价值工作 |
| 能力 | 让初级工程师也能处理复杂问题 |
关键数据(来自官网客户案例):
- DoorDash:87% 更快的调查速度
- Salesforce:60% MTTR 降低
- Coinbase:73% 更快的根因定位
三、因果推断 AI-SRE 技术路线分析
3.1 核心理念
基于我们之前对 Traversal 和因果推断技术的深度讨论,这条技术路线的核心理念是:
从”相关性猜测”到”因果定位”的根本转变
3.2 技术架构
三层架构:
├── 因果机器学习层(因果图 + 合成控制)
│ └── 构建服务依赖图谱,追踪故障传播路径
├── 推理模型层(Chain-of-Thought + Reflection)
│ └── 多步推理与反思,不断校正判断
└── Agent 并行层(Swarm of Agents + MapReduce)
└── 上千个专家型 agent 并行筛查 PB 级数据
核心差异化:数字孪生仿真验证
3.3 关键技术与工具链
| 技术/工具 | 作用 | 核心价值 |
|---|---|---|
| DoWhy | 因果推断四步法(建模→识别→估计→验证) | 完整的因果分析流程 |
| EconML | 异质性因果效应估计(CATE) | 精准定位”对谁有效” |
| 数字孪生 | 仿真验证修复方案 | 降低生产环境试错风险 |
| 反事实推理 | “如果没有 X,会怎样?” | 确定性根因定位 |
3.4 与 LLM 的协作模式
不同于 Resolve AI 深度依赖 LLM,因果推断路线对 LLM 的使用更加克制:
| 应用场景 | LLM 功能 | 限制 |
|---|---|---|
| 非结构化日志理解 | 语义关联提取 | 不用于核心因果计算 |
| 因果关系辅助识别 | 模式识别与假设生成 | 结合统计方法验证 |
| 自我训练优化 | 路径优先级排序 | 仅用于辅助决策 |
核心原则:LLM 用于语义理解和模式识别,因果推断的核心计算由专门的因果机器学习算法完成。
四、两种技术路线的深层对比
4.1 核心定位差异
| 维度 | Resolve AI | 因果推断 AI-SRE |
|---|---|---|
| AI 角色 | 替代者(Replacement) | 增强器(Amplifier) |
| 价值衡量 | 节省多少人/减少多少工时 | SRE 能力边界扩展多少 |
| 成功标准 | MTTR 降低 X% | 决策准确性提升 X 倍 |
| 人机关系 | 零和博弈(人 vs AI) | 协同进化(人 + AI) |
4.2 对 SRE 职业发展的影响
Resolve AI 路线的影响:
| 方面 | 变化 | 长期影响 |
|---|---|---|
| 核心技能 | 故障排查、根因分析被 AI 替代 | SRE 技能贬值 |
| 工作内容 | 审核 AI 建议、执行修复 | 沦为”操作员” |
| 学习成长 | 依赖 AI,自身能力提升有限 | 职业发展停滞 |
| 职业价值 | 可被 AI 替代的风险 | 就业安全感降低 |
因果推断路线的影响:
| 方面 | 变化 | 长期影响 |
|---|---|---|
| 核心技能 | 获得超人类认知能力(因果图、反事实推理) | 技能升级 |
| 工作内容 | 基于因果洞察做决策、学习系统行为模式 | 成为”决策者” |
| 学习成长 | 理解更复杂的系统因果结构 | 职业能力提升 |
| 职业价值 | 与 AI 协同进化的独特性 | 就业竞争力增强 |
4.3 技术路线的哲学选择
| Resolve AI 路线 | 因果推断路线 | |
|---|---|---|
| 核心信念 | AI 可以替代人类做判断 | AI 应该增强人类的判断能力 |
| 对 SRE 的态度 | SRE 是需要被替代的成本 | SRE 是需要被赋能的资产 |
| 长期愿景 | 无人运维(No-Ops) | 超人类运维(Super-Ops) |
| 价值创造 | 降本(减少人力) | 增效(提升决策质量) |
五、对 derisk 的启示:如何真正为 SRE 服务
5.1 核心理念:赋能而非取代
基于以上分析,如果 derisk 的目标是真正赋能 SRE 而非取代他们,建议遵循以下产品设计原则:
原则 1:让 SRE 更聪明,而不是让 SRE 更闲
| 不要做 ❌ | 要做 ✅ |
|---|---|
| 自动修复一切,让 SRE 无工可做 | 展示系统因果图,让 SRE 理解”为什么” |
原则 2:增强 SRE 的判断力,而非替代 SRE 的判断
| 不要做 ❌ | 要做 ✅ |
|---|---|
| AI 直接给出”最佳修复方案” | AI 提供多个假设 + 置信度 + 验证路径,SRE 选择决策 |
原则 3:让 SRE 持续成长,而非固化 SRE 的现有能力
| 不要做 ❌ | 要做 ✅ |
|---|---|
| 封装一切复杂度,SRE 只需点击按钮 | 解释 AI 的推理过程,SRE 学习新的系统认知方法 |
5.2 功能优先级建议
| 优先级 | 功能方向 | 赋能价值 |
|---|---|---|
| P0 | 因果图可视化 + 根因路径解释 | 让 SRE “看见”系统复杂性 |
| P0 | 多假设并行展示 + 置信度评分 | 让 SRE 做知情决策 |
| P1 | 反事实推理(”如果…会怎样”) | 扩展 SRE 的认知边界 |
| P1 | 数字孪生仿真(验证修复方案) | 降低 SRE 的试错成本 |
| P2 | 自然语言交互(查询系统状态) | 提升 SRE 的工作效率 |
5.3 战略选择建议
考虑到 derisk 所在的 AI-SRE 赛道和关注的因果推断方向,建议采取分阶段演进策略:
短期(0-12 个月):建立价值认同
- 目标:证明 AI 可以真正帮助 SRE 解决实际问题
- 策略:参考 Resolve AI 的产品化能力,快速构建可演示的端到端场景
- 重点:让 SRE 感受到”AI 让我更聪明”,而非”AI 要取代我”
中期(12-24 个月):构建差异化壁垒
- 目标:形成”效率 + 准确性”的双层架构
- 策略:逐步引入因果推断能力,解决 Resolve AI 无法处理的复杂根因问题
- 重点:建立”简单问题快速响应、复杂问题深度分析”的产品心智
长期(24 个月+):定义行业标准
- 目标:成为”AI 赋能 SRE”的标杆产品
- 策略:构建数字孪生和仿真验证能力,形成技术壁垒
- 重点:定位为”AI 专家系统”而非”AI 工具”,引领行业认知
5.4 关键成功指标(KPI)建议
不同于传统 AI-SRE 产品只关注 MTTR,建议从”赋能 SRE”的视角设计 KPI:
| 维度 | 传统指标 | 赋能指标 |
|---|---|---|
| 效率 | MTTR 降低 X% | SRE 决策速度提升 X% |
| 质量 | 误报率降低 X% | SRE 根因判断准确率提升 X% |
| 成长 | 工单处理量提升 X% | SRE 系统理解深度提升 X% |
| 满意度 | 客户满意度 X 分 | SRE “愿意推荐给同事”比例 X% |
六、总结:两条路线的哲学选择
| 维度 | Resolve AI 路线 | derisk 应该选择的方向 |
|---|---|---|
| 核心信念 | AI 可以替代人类做判断 | AI 应该增强人类的判断能力 |
| 对 SRE 的态度 | SRE 是需要被替代的成本 | SRE 是需要被赋能的资产 |
| 人机关系 | 竞争(人 vs AI) | 协作(人 + AI) |
| SRE 价值 | 执行效率 | 决策质量 + 系统理解深度 |
| 长期愿景 | 无人运维(No-Ops) | 超人类运维(Super-Ops) |
最终目标不是让 SRE 失业,而是让 SRE 成为”超人”。
本文基于 2026-04-21 的技术讨论整理,主要探讨 AI-SRE 领域的两条技术路线对比,以及如何从”赋能 SRE”的视角进行产品设计。