Cleric 的 AI SRE 如何通过 LangSmith 的持续学习实现升级

Cleric 是一款 AI 代理，旨在帮助工程团队调试生产问题，重点关注那些通常会消耗工程生产力的复杂且耗时的调查。

当警报触发时，Cleric 会利用现有的可观察性工具和基础设施自动开始调查。与人类工程师一样，Cleric 会同时检查多个系统——通过对生产系统的只读访问，检查数据库指标、网络流量、应用程序日志和系统资源。这种并行调查方法有助于快速识别复杂问题，例如微服务之间的级联故障。

Cleric 通过 Slack 与团队沟通，共享其发现并在需要时寻求指导。无需学习新工具——Cleric 可与现有的可观察性堆栈配合使用，如同人类工程师一样访问日志、指标和跟踪。

在 LangSmith 中同时进行生产问题调查

生产问题提供了独特的学习机会，这些机会无法在事后复制。与代码生成不同，生产环境是具有状态且动态的。一旦问题得到解决，确切的系统状态就会消失，学习它的机会也随之消失。

Cleric 团队需要同时测试不同的调查方法。例如，一种调查路径可能优先检查数据库连接池和查询模式，而另一种则首先关注网络流量和系统资源。这种设置会创建复杂的并发调查矩阵，因为 Cleric 会使用不同的调查策略检查多个系统。

这种方法带来了一个新的挑战。Cleric 团队如何监控和比较同时运行的不同调查方法的性能？他们如何确定哪种调查方法最适合不同类型的问题？

LangSmith 通过提供对这些并行调查和实验的清晰可见性，帮助解决了这个问题。有了 LangSmith，Cleric 系统现在可以

LangSmith 的跟踪功能使 Cleric 团队能够分析数千个并发跟踪中的调查模式，衡量哪些方法始终能更快地解决问题。这种数据驱动的验证对于构建可靠的自治系统至关重要，因为仅依赖一次有效的方法不足以确保其通用性。

Cleric 在每个客户环境中持续从交互中学习。当工程团队对调查提供反馈时——无论是积极的还是消极的——这都为改进未来的调查创造了机会。虽然在单个团队或公司内部学习很有价值，但 Cleric 也认识到将其成功的调查策略推广到我们所有部署的潜力。

挑战在于确定哪些学习是特定于团队或公司的，哪些代表了可以帮助所有用户的更广泛的模式。例如，在一个环境中有效的解决方案可能依赖于不存在于其他地方的特定内部工具或流程。

在泛化任何学习之前，Cleric 会采取严格的隐私控制和数据匿名化措施。在分析或共享任何模式之前，会剥离所有特定于客户的详细信息、专有信息和识别数据。

Cleric 使用 LangSmith 来管理这个持续学习的过程

LangSmith 的跟踪和指标功能使 Cleric 团队能够衡量这些共享学习的影响。系统可以在引入新记忆之前和之后，比较调查成功率、解决时间和其他关键指标。这种数据驱动的方法有助于验证哪些学习真正适用于不同环境，哪些应该仅限于特定客户。

该系统允许 Cleric 维护独立的知识空间——针对独特环境和程序的特定客户上下文，以及一个不断增长的、造福所有用户的通用问题解决模式库。

生产系统正变得越来越自主。工程的未来是构建产品，而不是操作它们。Cleric 解决的每一次事件都推动了这种转变，系统地将操作从人类工程师转移到 AI 系统，让团队专注于战略工作和产品开发。

Cleric 正在系统地构建这个未来，扩展自主能力，同时保持生产系统所需的安全性和控制力。每一次调查都有助于 Cleric 学习和改进，从而使其客户朝着真正自愈的基础设施迈进。要了解 Cleric 今天如何帮助您的团队，请联系我们。