摘要:我们在 LangSmith 中发布了新功能,以帮助监控生产环境中的代理。我们将“对话”(代表代理的多轮交互)概念作为核心概念,并增加了两个新工具来监控对话:Insights Agent 用于自动对代理使用模式进行分类,Multi-turn Evals 用于对完整的代理对话进行评分。
越来越多的代理投入生产。在此过程中,AI 团队发现自己需要更好地了解用户交互的整体情况。然而,传统的专注于正常运行时间的观测和测试无法告诉您代理是否真正实现了用户的目标。而在代理投入生产之前进行测试(我们称之为离线评估)只能覆盖您最初的想法。
今天,我们发布了新功能,帮助您了解代理在生产环境中运行时的内部情况,以便您可以优先改进。
- Insight Agent:自动对代理行为模式进行分类
- Multi-turn Evals:帮助您评估每次对话中完整的代理轨迹
使用 Insights Agent 发现生产跟踪中的模式
当今流行的代理每天会产生数百万个跟踪,很快就会达到数十亿。这些跟踪包含有关代理功能以及真实用户如何与其交互的宝贵信号。如果您能审查每次交互,就能深入了解如何改进您的代理。人工审查耗时且无法大规模进行,那么如何自动化这个洞察生成过程呢?
Insights Agent 是我们帮助 LangSmith 用户在生产跟踪中发现信号的第一步。Insights Agent 分析跟踪,以发现并展示常见的用法模式、代理行为和故障模式。
在代理工程中,您需要快速迭代以构建可靠的体验。这项新功能可以帮助您回答“用户在问我的代理什么?”之类的问题,从而根据您的代理正在进行的真实交互来确定下一步测试的重点。
一旦您将数据跟踪到 LangSmith,您就有几种方法可以对使用情况进行分类。
- 按使用模式分组:根据常见的用法模式进行聚类。这有助于您了解用户实际如何使用您的代理。当您让人们使用聊天机器人时,他们可以问它任何问题。现在您可以找出他们问的是什么。
- 按不良交互分组:根据您的代理出错的方式进行聚类。我们将寻找每次对话中表明负面交互(用户感到沮丧等)的信号,然后对根本原因进行分组。这有助于您了解您的代理常见的失败方式,从而优先改进。
- 自定义配置:Insights Agent 高度可配置。您可以指定要按哪些类别分组,按现有属性过滤(例如特定时间段的跟踪或聊天中的关键词),定义新属性,并保存配置供将来使用。
生成见解可能需要最多 15 分钟,具体取决于代理处理的数据量。报告准备就绪后,您将看到根据您的初始请求按类别和子类别组织的跟踪。您可以点击任何类别来探索底层跟踪,并将它们添加到数据集或标注队列中。您还可以看到按类别拆分的其他 LangSmith 指标,如延迟、运行次数以及您设置的任何评估。
我们构建此功能的目标是帮助您尽快启动探索和改进想法。
Insights Agent 现在已正式发布,适用于 LangSmith Plus 和 Enterprise 云客户。注册 LangSmith 并查看我们的文档以开始使用。
使用 Multi-turn Evals 评估端到端代理交互
一旦您对您的代理处理的主要使用模式有了很好的了解,您就可以开始深入研究每次完整对话的表现。直到现在,这一直很棘手——大多数其他评估平台只关注单个跟踪或步骤,使得很难理解整体交互是否实现了用户的目标。
今天,我们推出了 Multi-turn Evals,帮助您衡量您的代理是否在整个交互中实现了用户的目标。您仍然可以在 LangSmith 中进行跟踪级别评估,但现在您也可以评估整个交互。
Multi-turn evals 是在线评估,可以帮助您衡量诸如
- 语义意图:用户实际要尝试做什么。
- 语义结果:任务是否完成(如果未完成,则原因)。
- 代理轨迹:交互是如何展开的,包括沿途的工具调用和决策。
在 LangSmith 中,我们将这些用户和代理之间的多轮交流表示为对话。如果您已经在使用对话,那么开始使用非常简单。Multi-turn evals 在对话完成后自动运行,您可以定义 LLM 作为评委的提示来指导评分。
Insights Agent 和 Multi-turn evals 是我们正在开发的几项对话级别功能中的第一批。敬请关注对话级别的指标和仪表板,将对话添加到标注队列和数据集的自动化功能,以及 SDK 支持,以便您可以以编程方式提取和分析对话。
Multi-turn evals 今天已对所有 LangSmith 用户上线。访问我们的文档以开始使用。
通过 LangSmith 加快迭代速度
我们最新的 LangSmith 更新共同解决了构建可靠代理的严峻挑战。现在,您可以了解生产环境中的情况(Insights Agent),并衡量代理是否实现了用户目标(Multi-turn Evals)。这些功能提供了新的可见性级别,帮助您找出改进代理的最佳下一步。
准备好发布可靠的代理了吗?立即开始使用LangSmith。