The Hidden Metric That Determines AI Product Success

决定人工智能产品成功的隐藏指标

8 分钟阅读

合著:Assaf Elovic 和 Harrison Chase。您也可以在Assaf 的 Medium上找到本文的一个版本。

为什么有些人工智能产品会爆红,而另一些则难以获得关注?在构建人工智能产品和观察行业数百次发布经验之后,我们注意到一个模式,这个模式几乎与模型的准确性或技术复杂性无关。

区别在于我们称之为“CAIR”——对人工智能结果的信心。这种心理因素实际上是可以衡量、预测和优化的。它不仅仅是另一个虚荣指标。它是决定您的人工智能产品是成功还是失败的隐藏变量,无论您的底层技术多么令人印象深刻。

理解用户采用障碍

采纳的根本障碍是恐惧。为了最大限度地采纳,您需要低恐惧和高信心。我们需要一个可以优化的信心指标。这就是 CAIR 的由来。

CAIR 通过平衡用户获得的价值与他们面临的心理障碍的简单关系来衡量用户信心。

CAIR 指标

这个等式在直觉上是合理的。

  • 价值:当人工智能成功时,用户获得的收益
  • 风险:如果人工智能出错的后果
  • 纠正:修复人工智能错误的所需努力

当 CAIR 很高时,用户会热情地拥抱人工智能功能。当 CAIR 很低时,无论您的人工智能多么技术上令人印象深刻,采纳都会停滞不前。

CAIR 主要由产品设计决策决定,而不仅仅是底层人工智能的能力。

当然,成功的概率很重要——如果您的人工智能大多数时候都会失败,那么再巧妙的产品设计也无法挽救您。成功概率已经包含在我们等式的值(Value)的组成部分中。当人工智能失败时,用户获得的价值为零,CAIR 自然会因此下降。更重要的是,我们关注的是您作为产品团队可以实际控制的变量。随着人工智能供应商发布更好的模型,模型准确性会随着时间的推移而提高,但决定风险和纠正工作量的产品设计决策呢?那些完全掌握在您手中,它们是区分成功的人工智能产品和使用相同底层技术的失败产品的关键。

为什么 Cursor 征服了编码界

考虑一下 Cursor,这款由人工智能驱动的代码编辑器席卷了开发人员世界。理论上,代码生成应该会带来低信心——不正确的代码可能会导致为数百万用户服务的系统崩溃。然而,Cursor 却取得了爆炸式增长,因为它设计了一种信心接近最大化的体验。

Cursor AI IDE

让我们使用简单的高/中/低尺度将我们的等式应用于 Cursor。

  • 风险:低 — 代码在本地安全环境中生成,从不触及生产系统。
  • 纠正:低 — 您只需删除建议并自己编写即可。
  • 价值:高 — 节省数小时的编码时间和脑力。

CAIR = 高 ÷ (低 × 低) = 非常高

这就是 Cursor 的产品设计天才。想象一下,如果他们将产品设计为自动将生成的代码提交到生产系统。风险将飙升至高,但如果他们通过版本控制启用了易于回滚,纠正仍然可以是低/中。即使在这种高风险的情况下,低纠正工作量仍然会产生相当高的 CAIR,因为尽管风险很高,但恢复很容易。

然而,如果系统缺乏易于回滚的功能,风险和纠正都将变得很高,这将完全改变等式。

替代设计 CAIR = 高 ÷ (高 × 高) = 低

信心的大幅下降可能会扼杀采纳,即使人工智能模型的质量相同。这说明了为什么 CAIR fundamentally 关乎产品体验,而不仅仅是技术能力,以及为什么风险和纠正工作量的分离允许更细致的产品设计决策。

Jasper 等创意写作工具遵循相同的模式。它们将人工智能定位为协作伙伴,而不是自主创作者,通过确保用户保留编辑控制权来保持高 CAIR。

中 CAIR 机遇:Monday AI

Monday.com 提供了一个引人入胜的中等信心案例研究。他们的 AI Blocks 可以创建自动化并部署更改,但这些修改会立即在用户的 Monday 板上生效,这些板通常包含业务关键的工作流数据,与实际运营相关。

使用 AI 自动处理 monday.com 板

让我们分解每个变量。

风险:中 — Monday 板是团队赖以进行日常运营的“生产数据”,通常与组织内其他工作流相关联。不正确的自动化可能会在部门之间级联,向客户发送错误信息,或扰乱项目时间表。

纠正:中 — 由于板与其他系统相互关联,因此修复 AI 错误需要进行侦探工作,以识别更改、理解下游影响,并跨多个工作流手动撤消自动化更改。

价值:高 — AI 可以自动化繁琐的手动工作流管理,有可能每周为团队节省数十小时用于更新项目状态和触发后续操作等常规操作。

CAIR = 高 ÷ (中 × 中) = 中等

这种中等 CAIR 导致了采纳的犹豫,特别是对于管理关键工作流的用户。心理障碍不是人工智能的能力,而是用户必须在不确信的情况下承诺更改。

该框架提出了一个明确的产品改进建议:添加一个预览界面,用户可以在其中评估 AI 更改是否上线。这一项设计更改将通过将“测试”与“部署”的心智模型分开,将风险从“中”大幅降低到“低”。

这种简单的用户体验改进将显著提高 CAIR,并可能转化为更高的采纳率。这很好地说明了 CAIR 分析如何能够识别那些只需要围绕相同 AI 能力进行更明智的产品设计、而无需更改底层 AI 技术的高影响力产品改进。这很好地说明了 CAIR 分析如何能够识别那些只需要围绕相同 AI 能力进行更明智的产品设计、而无需更改底层 AI 技术的高影响力产品改进。

虽然 Monday AI 等工作流优化工具代表了中等风险场景,但由于高风险和人工智能在数值推理方面的固有局限性,某些领域面临着根本不同的挑战。

高风险领域:设计最重要

金融服务和医疗保健说明了人工智能的基本局限性,特别是数学和数值推理方面,会产生固有的低 CAIR,需要仔细的产品设计来克服。

挑战不仅仅在于后果,还在于能力差距。大型语言模型在数学计算、数值分析和精确推理方面根本不可靠。这使得会计、税务准备和投资建议等领域极其困难,无论用户体验设计得多好。

考虑人工智能税务准备软件。核心问题不仅仅是错误会产生后果(IRS 审计、罚款),还在于大型语言模型无法可靠地执行税务准备所需的数学计算和规则应用。如果此类系统自动提交纳税申报表,CAIR 将是毁灭性的。

自动申报税务 AI CAIR = 高 ÷ (高 × 高) = 非常低

TurboTax 的成功在于认识到这一基本限制。它们没有仅仅提供最终的专家审查,而是构建了贯穿整个过程的人工监督,引导用户输入数据,AI 提出优化建议,人类批准每一步。人工智能增强了人类的能力,而不是取代人类在数值计算上的判断。

Turbotax + AI

同样,自动投资交易者面临着数学复杂性和严重后果的双重挑战。执行交易的自主系统会产生令人麻痹的低信心。

自主交易 CAIR = 高 ÷ (高 × 高) = 非常低

Wealthfront 等成功平台通过将人工智能限制在模式识别和趋势分析,同时让人类负责所有数值决策和交易执行,从而实现了中等 CAIR。

医疗保健也面临着相同的模式。人工智能诊断工具在剂量计算、风险评估和测量解释所需的数值精度方面存在困难。成功的心电图分析工具通过将人工智能定位为突出异常以供人类解释的模式检测工具,而不是尝试进行数值诊断,从而实现了中等 CAIR。

各行业和产品的 CAIR

模式很清楚:需要数值精度的高风险领域并非在等待更精确的人工智能,而是在围绕人工智能的基本局限性进行设计,同时利用其模式识别优势。这创造了比纯技术改进更难复制的可持续竞争优势。

CAIR 优化的五项原则

在分析了成功的人工智能产品后,我们确定了优化 CAIR 的五项可靠策略。这些不是理论性的,数据在不同行业和用例中持续验证了它们的有效性。

  1. 战略性人工参与(优化所有三个变量)— 团队经常认为“自主”等于“更好”,但在大多数情况下,这会大大增加风险。您必须增加人工监督,但要战略性地进行。将其添加到每个地方都会破坏价值,而将其放置在关键决策点则能最大化 CAIR。例如,要求批准每项建议会扼杀生产力,但要求在不可逆转的操作之前进行批准可以同时保持安全性和实用性。艺术在于确定人工监督在哪里能以最小的价值稀释获得最大的 CAIR 优化
  2. 可撤销性(降低纠正)— 当用户知道他们可以轻松撤销人工智能操作时,纠正错误的努力就会大大减少。明确的“逃生舱口”的心理安全将焦虑转化为信心。通过添加醒目的撤销功能,我们一致看到采纳率翻倍。
  3. 后果隔离(降低风险)— 通过沙箱、预览和草稿模式为人工智能实验创造安全空间。这会将“测试”与“部署”的心智模型分开,在探索过程中有效地消除了后果恐惧。沙箱环境一致显示采纳率高出 3-4 倍。
  4. 透明度(降低风险和纠正)— 当用户理解人工智能做出决策的原因时,他们可以更好地评估其可靠性(降低感知风险)并识别需要修复的具体问题(降低纠正工作量)。解释功能可显著增加重复使用次数,因为用户可以纠正特定的错误假设,而不是抛弃整个人工智能输出。
  5. 控制梯度(在管理风险的同时增加价值)— 允许用户根据个人舒适度校准 CAIR。从低风险功能开始,随着信心的建立,逐步提供更高价值的功能。这承认每个人都有不同的风险承受能力,并创造了一个自然的晋升路径。

重塑人工智能产品开发

CAIR 从根本上改变了我们评估人工智能就绪性的方式。我们不应只问“人工智能是否足够准确?”,而应问“CAIR 是否足以让用户接受?”

这一转变将对话从纯粹的技术指标转移到平衡的技术产品视角。最重要的问​​题变成:

  • 用户可以轻松纠正人工智能的错误吗?
  • 人工智能错误的后果有多严重?
  • 成功完成人工智能可提供多少价值?
  • 在关键时刻,人类保留多少控制权?
  • 局限性是如何清晰传达的?

对于产品领导者来说,这种洞察是解放性的。您无需等待完美的人工智能即可创造成功的产品。在具有高 CAIR 设计的 85% 准确率的人工智能,在用户采纳和满意度方面将始终优于在低 CAIR 设计中具有 95% 准确率的人工智能。

对组织而言,这意味着人工智能计划应由产品和人工智能团队共同领导,产品设计决策与模型调整一样对决定成功至关重要。人工智能就绪性评估必须包括 CAIR 计算,而不仅仅是技术评估。

将在人工智能领域取得胜利的公司不一定是谁拥有最先进的模型,而是那些懂得如何通过深思熟虑的产品设计来工程化信心和最大化 CAIR 的公司。

从这里开始:计算您当前人工智能功能的 CAIR 分数。找出 CAIR 最低的点,选择一个,并实施一项 CAIR 优化原则。在实施前后衡量采纳率。您可能会立即看到差异,更重要的是,您将拥有一个可重复的框架来处理之后的所有人工智能产品决策。

问题不在于您的人工智能是否足够好。问题在于您的用户是否足够信任它来找出答案。

© . This site is unofficial and not affiliated with LangChain, Inc.