How Trellix cut log parsing time from days to minutes with LangGraph Studio and LangSmith

Trellix 如何使用 LangGraph Studio 和 LangSmith 将日志解析时间从几天缩短到几分钟

了解网络安全公司 Trellix 如何使用 LangGraph Studio 可视化和调试代理交互,并使用 LangSmith 进行代理评估。

阅读 4 分钟

Trellix 是一家领先的网络安全公司,拥有超过 40,000 名客户,能够帮助组织免受网络安全攻击和威胁。为了应对客户面临的挑战,Trellix 专业服务团队使用 LangSmith 和 LangGraph(包括可视化 LangGraph Studio)开发了 Sidekick,这是一个旨在普及知识和自动化繁琐流程的内部应用程序。

问题:客户请求积压和日志解析

Trellix 在处理日益增多的网络安全集成和日志解析请求方面面临严峻挑战。每个请求通常需要开发人员花费 2 到 3 天的时间来解读日志、编写集成代码和管理客户沟通。这个漫长的过程令客户感到沮丧,并导致延误,因为支持工单会在客户和工程师之间来回传递。

为了改善客户体验,Trellix 决定构建 Sidekick,这是一个能够自动化 Trellix 工程团队任务(包括日志解析和脚本编写)的智能代理平台。具体来说,他们创建了一种结构化的方法来接收和解析 syslog 数据。Sidekick 能够自动生成未知日志格式的解析器,**将手动解析所需时间从几天缩短到几分钟**。此外,他们还构建了能够加速其 SaaS 产品插件和集成开发的代理。传统上,这需要工程师阅读第三方 API 文档并为每个新插件生成样板代码。将这项工作交给代理意味着过去需要数天才能完成的插件,现在可以在一个下午的大部分时间内完成。这种更快的周转时间使工程师能够有效处理集成积压,并提高了客户满意度。

LangGraph 作为库的优势

LangGraph 为 Trellix AI 工程团队提供了必要的底层工具和增强的抽象技术,以实现其用例所需的定制。具体来说,Sidekick 代理中广泛使用了利用 Send API 的 map-reduce 风格图和子图调用。这些功能促进了模块化和抽象。Trellix 团队最初创建了几个较小的子图,其中许多依赖于 Send API 和其他更底层的 LangGraph 技术以高效且大规模地工作。一旦多个子图能够成功执行其各自的角色,就创建了更大的图来调用原始图作为模块。

Trellix 团队注意到了其易用性;并不是 LangGraph 从根本上重新构想了代理的开发方式。相反,LangGraph 提供了一些现成的功能,使开发人员的生活更加轻松。他们不必花费时间来弄清楚如何在代码中创建代理的最佳方法,而是将时间花在了调整、完善和组合一小组易于构建的代理上。

LangGraph 的人工干预能力也令人安心,工程师可以根据需要介入以批准或回滚代理的操作。能够在开发测试期间暂停执行,或在不等待整个新运行的情况下重新启动某个步骤并稍作修改,从而提高了效率。这对工程团队来说意义重大,他们强调等待模型响应来测试代码可能会非常乏味。

使用 Studio 为业务利益相关者可视化代理工作流

不仅开源库提供了优势,LangChain 工具也特别有用。 LangGraph Studio 通过提供可视化和优化日志解析和集成任务工作流的框架,在 Sidekick 的开发中发挥了至关重要的作用。工程团队使用 LangGraph Studio 来规划手动流程,并将它们转化为代理工作流。

LangGraph Studio 的优势不仅限于开发。代理可视化对于向技术和非技术利益相关者(如 Trellix 的高管和业务领导者)展示 AI 模型背后的**思维过程和推理**特别有帮助。Sidekick 背后的工程团队发现,一旦开始使用 LangGraph Studio,获得支持和实现跨团队理解的能力得到了极大的改善。它成为一种很好的方式来展示代理不是“黑匣子”,而是精心设计的程序。

Trellix 的 LangGraph Studio 工作流

使用 LangSmith 随着时间的推移监控代理性能

为了做出数据驱动的决策并评估代理性能,Trellix 使用 LangSmith 进行实验并根据绩效指标采取行动。该团队首先使用 LangGraph 设计了不同的代理架构,然后在 LangSmith 中测试了 Sidekick 代理的多种架构,以了解哪种性能最好。

在 LangSmith 中使用数据集和实验尤其强大,因为 Trellix 团队可以快速比较不同应用版本的性能。特别是,他们监控了关键指标,如递归率(即代理需要重新启动或返回到上一步的频率)以及“必须包含”率(即代理检索有用的附加文档的频率)。拥有这些数据并看到基于数据的改进,有助于 Trellix 在生产部署前建立信心。

LangSmith 中 Trellix 的实验视图

除了使用实验和数据集外,Trellix 的工程师还发现跟踪数据在生产和开发过程中进行调试时特别有用。将跟踪数据直观地结构化为每个节点的输入和输出,使得调试比逐一查看 AWS 日志要容易得多。这带来了更快的开发和错误修复,从而提高了内部用户的满意度。

影响和下一步

通过 Sidekick,Trellix 极大地节省了团队工程师和客户的时间。他们实现了:

  • 将日志解析时间从几天缩短到几分钟,大大提高了工程效率。
  • 加速了客户请求的解决,减少了积压,并提高了价值实现时间 (TTV)。
  • 通过测试多种架构并在 LangSmith 中跟踪关键指标,提高了 AI 代理的性能
  • 通过向非技术领导者提供清晰、可视化的 AI 推理解释,增强了利益相关者的信心

展望未来,Trellix 计划将 Sidekick 的功能扩展到外部合作伙伴,进一步普及对网络安全领域 AI 驱动解决方案的访问。LangSmith 和 LangGraph 的积极影响为 Trellix 的服务交付持续创新奠定了基础,目标是在下个季度将自动解析和云连接器扩展到所有客户。

结论

Trellix 已成功实施生成式 AI 来解决网络安全领域的运营挑战,包括满足客户需求。通过使用 LangSmith、LangGraph 和 LangGraph Studio 开发 Sidekick,Trellix 不仅提高了内部效率,还增强了客户满意度,为未来 AI 驱动的网络安全解决方案的进步铺平了道路。

© . This site is unofficial and not affiliated with LangChain, Inc.