一、业界实践回顾:Traversal 技术架构
1.1 背景与定位
Traversal 是一家专注于因果推断与 Agentic SRE 的初创公司,由 MIT 和 Berkeley 的教授及量化交易员组成,2025 年完成 4800 万美元 A 轮融资(Sequoia 和 Kleiner Perkins 领投)。
核心差异化:从”相关性猜测”到”因果定位”的根本转变,在财富 100 强客户中实现 90%+ 归因准确率。
1.2 三层技术架构
Traversal 的技术栈由三个协同层组成:
| 层级 | 核心技术 | 功能描述 |
|---|---|---|
| 因果机器学习 | 因果图 + 合成控制/潜变量模型 | 构建服务依赖图谱,通过逻辑链条精准追踪故障传播路径 |
| 推理模型 | Chain-of-Thought + Reflection | 多步推理与反思机制,不断校正判断,提高结论准确性 |
| Agent 并行 | Swarm of Agents + MapReduce | 调度上千个专家型 agent 并行筛查 PB 级数据,逐步缩小搜索范围 |
1.3 数字孪生与仿真模拟(核心差异化)
Traversal 的核心差异化能力:在真实执行前通过”数字孪生”进行仿真验证。
数字孪生(Digital Twin):
- 与云基础设施、CI/CD 流水线及可观测性工具深度集成
- 实时构建并维护与生产环境同步的虚拟副本
- 包含服务拓扑、实时流量、依赖关系和故障传播路径
主动试错机制:
| 阶段 | 机制 | 示例 |
|---|---|---|
| 仿真模拟 | 在数字孪生中并行模拟多种修复策略 | 同时模拟”增加只读副本”、”优化查询语句”、”调整连接池限制” |
| 强化学习评分 | 对每种方案的执行结果实时评分 | 评估对性能的具体影响及是否解决核心问题 |
| 最优方案选择 | 只选择得分最高、置信度最优的方案 | 仅在虚拟环境验证为最优后才准备应用到生产环境 |
实际案例:Wayfair 黑色星期五期间,Traversal 通过仿真确认 Redis 扩容是应对缓存过载的有效方案,成功避免了无效修复带来的风险。
1.4 安全执行机制
| 风险级别 | 执行策略 | 机制描述 |
|---|---|---|
| 低风险 | 自动执行 | 直接应用修复方案 |
| 中风险 | 影子测试 | 在后台运行新修复配置,与现有生产配置并行但不处理实际流量,对比验证稳定性和效果 |
| 高风险 | 金丝雀发布 | 仅将修复方案应用于极小比例(如 1%)的真实用户流量,实时监控性能指标,确认有效且无负面副作用后才逐步扩大至全量 |
1.5 LLM 的角色定位(克制使用)
Traversal 对 LLM 的使用体现了精准定位、克制使用的原则:
| 应用场景 | LLM 功能 | 具体实现 |
|---|---|---|
| 非结构化日志理解 | 语义关联提取 | 利用 LLM 理解非结构化日志之间的语义关联 |
| 因果关系辅助识别 | 模式识别与假设生成 | 结合统计方法,识别时间序列中的自然波动,提取潜在因果关系 |
| 自我训练优化 | 路径优先级排序 | 优先识别对 RCA 最有价值的因果路径 |
Traversal 明确避免的 LLM 使用方式:
- ❌ 不依赖 LLM 进行因果推断的核心计算
- ❌ 不使用 LLM 直接处理 PB 级原始数据
- ❌ 不将 LLM 作为唯一的决策依据
核心原则:LLM 用于语义理解和模式识别,因果推断的核心计算由专门的因果机器学习算法完成。
二、技术分析与思考
2.1 LLM Agent 的核心作用与架构设计
2.1.1 LLM Agent 的双重角色
在”LLM + 因果推断”的协作流程中,LLM 实际上扮演两个关键角色:
| 角色 | 阶段 | 核心功能 | 不可替代性 |
|---|---|---|---|
| 信息提取器 | Step 1: 理解阶段 | 从自然语言中结构化提取时间、事件、症状 | 因果推断无法理解”昨天发布v2.3.1后支付服务延迟飙升”这类非结构化描述 |
| 结果翻译官 | Step 3: 解释阶段 | 将 ATE=0.73、置信区间等转化为人类可理解的根因报告 | 纯因果输出是技术参数,无法直接用于决策沟通 |
深层洞察:LLM 的价值不在于”做因果分析”,而在于搭建人类自然语言与因果推断形式化语言之间的桥梁。
2.1.2 推荐的 Agent 架构
推荐以下三层 Agent 架构:
三引擎路由决策表:
| 引擎 | 作用域 | 决策类型 | 典型场景 | 路由条件 |
|---|---|---|---|---|
| 规则引擎 | 已知模式、硬约束 | 确定性、零容错 | “CPU > 90% 持续5分钟 → 扩容” | 输入匹配预定义模式 |
| 因果推断引擎 | 复杂根因、干预效果 | 概率性、可解释 | “v2.3.1 发布是否导致延迟?” | 需要因果解释的反事实问题 |
| LLM | 模糊输入、开放推理 | 创造性、泛化 | “用户描述了一个奇怪的问题…” | 非结构化输入、需要通用理解 |
2.2 数字孪生与仿真方案设计
2.2.1 为什么需要数字孪生?
核心问题:因果推断的结果如何验证?直接在生产环境测试风险太高,但不验证又无法建立信任。
数字孪生的价值:
| 价值点 | 说明 | 对比无数字孪生 |
|---|---|---|
| 风险隔离 | 在虚拟环境验证修复方案,避免生产环境试错 | 直接在生产环境测试,可能导致故障扩大 |
| 并行仿真 | 同时模拟多种修复策略,选择最优方案 | 只能串行尝试,效率低下 |
| 预测能力 | 在故障发生前预测影响范围和传播路径 | 只能被动响应,无法主动预防 |
| 信任建立 | 通过可视化仿真结果建立人类对 AI 的信任 | 人类无法理解 AI 的决策依据,难以建立信任 |
2.2.2 主动试错机制设计
机制流程:故障检测 → 生成修复假设 → 并行仿真验证 → 强化学习评分 → 最优方案选择 → 效果监控与反馈
关键设计要点:
| 设计要点 | 说明 | 价值 |
|---|---|---|
| 并行仿真 | 同时验证多种方案,而非串行尝试 | 大幅提升决策效率 |
| 量化评分 | 基于强化学习的多维度评分机制 | 避免主观判断,提高决策客观性 |
| 渐进执行 | 根据风险级别选择执行策略 | 在效率和安全之间取得平衡 |
| 闭环反馈 | 持续监控效果并反馈到知识库 | 实现系统的自我进化 |
三、总结
3.1 核心观点
-
能力互补:LLM 提供自然语言理解,因果推断提供确定性决策,两者结合实现从”可能相关”到”确定因果”的跃迁。
-
架构分层:感知层 → 推理层(LLM + 因果推断 + 规则引擎)→ 执行层,按问题类型路由到最适合的引擎。
-
LLM 是桥梁:LLM 不是核心决策者,而是搭建人类自然语言与因果推断形式化语言之间的桥梁。
-
数字孪生是保障:因果推断结果必须通过数字孪生仿真验证,才能用于生产环境的自动化决策。
3.2 关键成功因素
| 因素 | 说明 |
|---|---|
| 领域专家参与 | 因果图构建需要 SRE 专家的经验输入 |
| 验证闭环 | 所有因果结论必须经过沙盒/A/B 测试验证 |
| 渐进式信任 | 自动化程度从建议 → 影子测试 → 全自动化 |
| LLM 边界清晰 | 仅用于语义理解,不用于因果计算 |
参考资源
- DoWhy: https://github.com/microsoft/dowhy
- EconML: https://github.com/microsoft/EconML
- Traversal: https://traversal.ai/
- 参考文章: 《当人读不懂 AI 代码,Traversal 如何做企业运维的 AI 医生?》(海外独角兽,2026-02-11)
本文基于 2026-03-01 至 2026-03-07 的技术讨论与业界实践研究整理。