Airtop 是一个强大的平台,可赋能开发者以简洁而精确的方式创建可扩展、可投入生产的 Web 自动化。Airtop 处于使智能代理能够与 Web 交互的最前沿,它赋能代理通过自然语言命令执行诸如登录、提取信息、填写表单以及与 Web 界面交互等操作。
AI 代理的功能仅限于其可访问的数据。大规模导航网站会带来身份验证和验证码等挑战。Airtop 通过提供一种可靠的方式让开发者通过自然语言 API 控制浏览器来弥合这一差距,从而无需复杂的 CSS 选择器技巧或 Puppeteer 脚本。
Airtop 利用完整的 LangChain 生态系统(LangChain、LangSmith 和 LangGraph),构建了许多浏览器解决方案,包括:
- Extract API:支持从网页中提取结构化信息,例如演讲者列表、LinkedIn URL 或监控机票价格。也可用于已验证的网站,以实现社交监听和电子商务等用例。
- Act API:支持在网站上执行操作,例如输入搜索查询或实时与 UI 元素进行交互。
使用 LangChain 简化模型集成
当 Airtop 着手为 AI 代理构建其云浏览器时,他们需要一个能够灵活集成各种 LLM 模型的平台。 LangChain 因其“自带电池”的方法而迅速脱颖而出。LangChain 内置了对 GPT-4 系列、Claude、Fireworks 和 Gemini 的集成,为 Airtop 节省了无数开发时间。
Airtop 的 AI 工程师 Kyle 分享道:“LangChain 提供的标准化接口改变了游戏规则。我们可以轻松地在模型之间切换,这对于我们优化不同用例至关重要。”
在 LangGraph 中构建灵活的代理架构
当 Airtop 希望增加更多浏览器自动化功能时,他们的工程团队转向了 LangGraph,以利用其灵活的架构来构建其代理系统。通过 LangGraph,Airtop 将单个浏览器自动化构建为子图。这也有助于为其应用程序提供未来保障,因为随着自动化的扩展,可以轻松添加额外的子图,从而使团队能够进行更动态的控制,而无需重新设计其控制流。
在设计代理时,Airtop 团队决定从小处着手,为代理提供微功能,然后用更复杂的代理构建他们的系统,这些代理可以点击网站上的元素并执行击键操作。随着代理的发展,可靠性一直是重中之重。LangGraph 帮助 Airtop 在其代理在网站上执行操作时验证其步骤的准确性。
在 LangSmith 中调试和完善提示
虽然 Airtop 最初开始使用 LangSmith 来调试通过客户支持工单收到的问题,但他们也很快发现 LangSmith 可以加速他们开发过程的多个部分。
在开发过程中,Airtop 在提示工程和动态测试中使用了 LangSmith。当出现像 OpenAI 或 Claude 这样的 AI 模型产生的模糊错误消息时,LangSmith 的多模态调试功能提供了清晰的洞察,使团队能够确定问题是源于格式化问题还是错位的提示组件。
此外,Airtop 团队赋能用户可靠的 Web 自动化功能也非常重要。他们利用 LangSmith 的 Playground 来迭代提示并运行并行模型请求,即时模拟真实用例。这加快了 Airtop 的内部工作流程,并增强了他们为用户提供更准确、更量身定制的响应的能力。
下一步
Airtop 显著加快了其 AI 代理驱动的 Web 自动化解决方案的上市时间。借助 LangGraph 的可控代理框架和用于开发中测试的 LangSmith,该团队确保了强大的代理性能。
Airtop 的首席技术官 Daniel Shteremberg 表示:“每一项创新都成为下一步的基础。借助 LangChain 和 LangSmith,我们可以创建适应性强、可靠且面向未来的解决方案。”
未来,Airtop 团队的目标是
- 构建更复杂的代理,借助高级 LangGraph 代理执行多步骤、高价值的任务,例如股票市场分析或企业级自动化。
- 为平台添加其他微功能,使 AI 代理能够跨 Web 执行无限范围的操作。
- 增强基准测试:进一步完善其基准测试系统,以评估跨更多模型配置和用例的性能。