Podium 如何通过 LangSmith 优化代理行为并将工程干预减少 90%

关于 Podium

Podium 是一个沟通平台，可帮助小型企业通过电话、短信、电子邮件和社交媒体快速与客户建立联系。小型企业通常需要与客户进行高频率互动——例如汽车经销商、珠宝商、自行车商店——但人手不足。Podium 的使命是帮助这些企业及时响应客户咨询，从而将潜在客户转化为销售。

Podium 的数据显示，在 5 分钟内响应客户咨询的潜在客户转化率比一小时内响应的转化率高 46%。为了改善潜在客户捕获，Podium 推出了 AI Employee，这是他们用于与本地企业客户互动、安排预约和促成销售的智能体应用程序（及其旗舰产品）。

最初，Podium 使用 LangChain 框架进行单轮交互。随着其智能体用例针对广泛的客户和领域变得越来越复杂，Podium 需要更好地了解其 LLM 调用和交互——因此转向 LangSmith 进行 LLM 测试和可观测性。

在智能体开发生命周期的测试

建立反馈循环对于 Podium 的智能体开发生命周期尤为重要。LangSmith 使 Podium 的工程师能够测试和持续监控其 AI Employee 的性能，并向其数据集添加新的边缘案例，以随着时间的推移精炼和测试模型。

Podium 的测试方法如下：

基线数据集策划：创建初始数据集以代表智能体的基本用例和要求。这为测试和开发奠定了基础。
基线离线评估：使用策划的数据集进行初步测试，以评估智能体在交付生产之前满足基本要求的情况。
收集反馈：
1. 用户提供的反馈：收集与智能体互动用户的直接输入。
2. 在线评估：使用 LLM 实时自我评估和监控响应质量，并标记潜在问题以供进一步调查。
优化：
1. 提示调整：精炼用于指导智能体响应的提示。
2. 检索调整：调整用于生成响应的检索机制。
3. 模型微调：使用跟踪数据对模型进行进一步训练和专业化，以处理特定任务。
持续评估
1. 离线评估：通过回溯测试、成对比较和其他测试方法评估智能体的性能并确定优化机会。
2. 数据集策划：不断更新和扩展包含新场景和边缘案例的测试数据集，以进行回归测试，确保新更改不会对现有功能产生负面影响。

使用 LangSmith 进行数据集策划和微调智能体

在 LangSmith 之前，理解客户咨询以及员工应采取哪些步骤来解决咨询非常困难，因为 Podium 的工程师每次互动需要进行 20-30 次 LLM 调用。借助 LangSmith，他们可以快速设置并记录和查看跟踪以汇总见解。

Podium 在其 AI Employee 方面遇到的一个具体挑战是，该智能体很难识别对话何时自然结束，导致出现尴尬的重复道别。为解决此问题，Podium 首先在 LangSmith 中创建了一个包含各种对话场景的数据集，包括不同对话可能结束的方式。

他们的工程团队随后发现升级到更大的模型很有帮助，并将输出策划成一个更小的模型（使用一种称为模型蒸馏的技术）。升级模型非常顺利，因为模型输入和输出会自动捕获在 LangSmith 的跟踪中，使团队能够轻松策划数据集。

Podium 的工程师还使用客户配置文件、业务类型和其他对其业务重要的参数的元数据丰富了 LangSmith 跟踪。他们使用 LangSmith 中的特定标识符对跟踪进行分组，从而在数据策划期间轻松汇总相关的跟踪。这些丰富的数据使 Podium 能够创建更高质量且平衡的数据集，从而改善了模型微调，并帮助他们避免过拟合）。

有了这个平衡的数据集，Podium 团队然后使用成对评估将他们的微调模型结果与他们原始的、更大的模型结果进行了比较。这种比较使他们能够评估升级后的模型在提高智能体何时结束对话的能力方面有多大作用。

微调后，Podium 的新模型在检测对话自然结束点方面取得了显著改进。Podium 的微调模型的 F1 分数提高了 7.5%，从 91.7% 提高到 98.6%，**超过了他们 98% 的质量阈值**。

无需工程干预即可为 AI 平台提供高质量的客户支持

在 Podium，工程师必须了解与客户的沟通何时出现问题，以便他们能够持续发布可靠的高质量产品。

自今年 1 月公开推出 AI Employee 以来，Podium 的技术产品专家 (TPS) 能够实时排除用户遇到的问题变得至关重要。在 Podium，TPS 团队通常为他们的小型企业客户提供客户支持。然而，查明问题的根源（以及如何采取行动）是具有挑战性的。

让 TPS 团队能够访问 LangSmith 提供了清晰度，使团队能够快速识别客户报告的问题并确定：“这个问题是应用程序中的错误、上下文不完整、指令不一致还是 LLM 的问题？”

对于 Podium 来说，识别客户问题类型可以指导他们采取适当的干预措施。

对于应用程序中的错误：这是编排失败，例如集成未能返回数据。这些需要工程干预。
对于不完整的上下文：LLM 缺少回答问题所需的信息。TPS 团队可以通过添加额外内容来补救这些问题。
对于不一致的指令：指令基于业务要求；要求中的任何问题都会影响智能体行为。TPS 团队可以通过在内容创作系统中进行更改以更好地满足业务要求来补救这些问题。
对于 LLM 问题：即使有必要的上下文，LLM 也可能产生意外或错误的信息。这些需要工程干预。

例如，许多汽车经销商使用 Podium 的 AI Employee 来响应客户咨询。如果 AI Employee 错误地回应说汽车经销商不提供换油服务，TPS 团队可以使用 LangSmith 的 Playground 功能来编辑系统输出，并确定管理界面中的简单设置更改是否可以解决问题。

*LangSmith Playground 使 Podium 的支持团队能够在没有工程干预的情况下排除智能体行为故障*

在 LangSmith 之前，排除智能体行为故障通常需要工程干预。这是一个耗时的过程，需要工程师首先审查模型输入和输出，然后重写和重构代码。

通过让他们的 TPS 团队能够访问 LangSmith 跟踪，Podium **将工程干预的需求减少了 90%**，使他们的工程师能够更多地专注于开发而不是支持任务。

总而言之，使用 LangSmith 带来了：

提高了 Podium 支持团队的效率，使他们能够更快、更独立地解决问题。
提高了客户满意度 (CSAT) 分数，无论是支持互动还是 Podium 的 AI 驱动服务。

Podium 的下一步

通过集成 LangSmith 和 LangChain，Podium 在客户体验工具领域获得了竞争优势。LangSmith 增强了可观测性，并简化了大型数据集的管理和模型性能的优化。Podium 团队还一直在将其LangGraph集成到其工作流程中，在服务不同目标客户的同时降低了智能体编排的复杂性，并增加了对其智能体对话的控制力。

总而言之，这些产品套件使 Podium 能够专注于其核心价值主张——帮助小型企业更有效地捕获潜在客户，并高效地设计、测试和监控其 LLM 应用程序。

Podium 正在招聘 担任各种职位，以帮助本地企业获胜。对 Podium 的故事感兴趣？您也可以尝试 免费使用 LangSmith 或 与 LangSmith 专家交谈 以了解更多信息。

有关测试和评估 LLM 应用程序的更全面的最佳实践，请参阅 本指南。