出色的用户体验始于可靠的应用程序。因此,在故障到达用户之前捕获它们至关重要。为了帮助您保持领先,我们推出了 LangSmith 中的警报——,让您更轻松地实时监控您的 LLM 应用和代理。
我们现在支持根据错误率、运行延迟和反馈分数等关键指标设置警报。
如果您已将生产跟踪发送到 LangSmith,您可以立即设置您的第一个警报。不熟悉跟踪?在 LangSmith 中开始跟踪。

为什么主动监控很重要
监控和警报对任何生产应用程序都至关重要——但 LLM 驱动的应用程序带来了独特的挑战,主要分为两类:
依赖外部服务
代理式应用程序本质上依赖于众多依赖项——您可能会使用一个(或多个)模型提供商,并且有许多工具可供您的代理使用,例如 API、网络搜索服务和数据库。这些依赖项的停机、速率限制或延迟增加会严重影响用户体验。主动监控可帮助您快速识别这些问题。
质量与正确性
用户体验不仅关乎速度;还关乎 LLM 输出的质量。LLM 的行为并不总是可预测的——提示、模型或输入的微小变化可能会意外地影响结果。
在受控评估中表现良好的提示有时也可能在现实场景中出现回归,因为用户交互方式不同。基于反馈分数(来自用户输入或在线评估)的警报可以为这些质量下降提供预警系统。
LangSmith 警报概述
LangSmith 支持对以下指标进行警报:
- 错误计数和费率
- 平均延迟
- 平均反馈分数
对于每个警报指标,您可以利用一组强大的过滤器来专注于特定子集的运行(例如,按模型、工具调用或运行类型进行过滤)。

然后,您可以设置聚合窗口(5 或 15 分钟)和阈值来调整警报的灵敏度。
最后一步是将警报集成到您现有的工作流程中。我们支持通过 PagerDuty 发送警报,或设置自定义 webhook(例如,将通知直接发送到 Slack 频道)。
就是这样!查看我们的文档以了解更多信息,并立即开始在 LangSmith 中设置警报。
下一步是什么?
警报是任何可观测性产品的关键组成部分。未来,我们将添加:
- 更多类型的警报:运行计数和 LLM 令牌使用情况
- 更改警报,允许您设置相对值进行警报(例如,当延迟飙升 25% 时发出警报)
- 跨自定义时间窗口的警报
如果您有反馈或功能请求,请通过 LangChain Slack 社区与我们联系,告诉我们您的想法。如果您还没有加入 Slack 社区,请在此处注册。