
Ai Agent Reality Check:人类监督能否驯服炒作?
人工智能代理自主性的热潮正在降温,人类监督正在回归
监督
我们对人工智能代理的看法正在发生变化。让我在这里快速概述一下……
HuggingFace 发布了一项研究,他们认为 人工智能代理不应完全自主,尤其是在必要的保障措施没有得到充分开发的情况下。
他们建议采取一种方法,进行 不同程度 的人类监督。
这是我一直倡导的观点,即需要有 代理水平,并且人类监督的程度各不相同。
与其直接转向完全自主的人工智能代理,我们应该将不同的 级别 或自主性融入日常应用中。
这为自动化提供了一条更平衡的路径。
通过这种方式,用户可以享受人工智能助手的好处,同时对关键决策和行动保持控制。
通过 逐步 引入 代理,应用程序可以提供自适应支持和智能建议,而不会越过完全自主的界限。
这促进了一个协作环境,在这个环境中,人类监督和人工智能能力和谐地协同工作。
现代工作
最近,Prasanna Arikala 表示,员工花费多达 30% 的时间来搜索文档和信息。
Jerry Liu 最近也表示,知识工作者将 50–80% 或更多的时间用于分析、综合和创建非结构化数据——想想你一天中有多少时间花在阅读报告、文档、演示文稿或制作这些材料的新版本上。
因此,代理RAG 或 知识代理 可以帮助自动化这些重复的知识任务。
通过这样做,我们可以释放出宝贵的时间,使人们能够专注于批判性思维、更好的决策,并减少职业倦怠。
早期出现的用例包括 研究助手、自动化工作流程 和 报告生成,展示了这种方法的变革潜力。
如果你喜欢这篇文章
在Medium上关注我并免费订阅。
让我们在LinkedIn上联系,并在X上保持联系!
任务分类
该研究还根据 ** 领域 ** 或 ** 意图 ** 对任务进行分类,并考虑相关的 ** 风险 **。
动作数量 是重要的,因为 人工智能代理 需要预测为某项任务需要采取多少步骤或行动。
如果动作数量增加,成本也会增加,同时引入不准确性的可能性也会增加。
命名概念是指每个任务中提供的命名概念的数量。根据之前的研究,大多数人一次只能处理 5 到 9 个概念。
人类监督
考虑下面的图像,这是以适度的方式引入代理的一个良好示例。
用户提出了一个问题:I need to set an alarm for every weekday morning at 7:30, and then cancel the alarm for Thursday, changing it to 8:00 in the evening.
这是一个复合且多意图的表达,但请看代理助手如何将请求分解为一系列任务和子任务。用户可以选择删除步骤或通过拆分步骤来细化步骤。
用户在看到良好的规划时会认可它…
但他们不一定能提出计划。
用户参与任务的规划和执行并不会显著提高信任或导致对结果的更好校准信任。
事实上,参与规划有时可能会损害计划质量,特别是在初始计划已经很强的任务中,这可能导致执行期间的表现更差。
结果表明,用户参与并不固有地帮助建立信任。
相反,计划本身的质量起着至关重要的作用,与规划和执行中的信任之间存在强正相关关系。
当计划结构良好且质量高时,用户往往更信任人工智能代理,他们的信任也相应地对齐。
然而,当计划质量较低时,用户难以调整他们的信任水平。
这种不对齐可能源于人工智能生成的计划的说服力,这些计划在乍一看时往往显得合乎逻辑且可信。
此图显示了左侧生成的计划,以及右侧的对话。
成功的规划并不等于成功的执行
用户参与规划和执行可以提高整体任务表现,特别是通过改善执行准确性。
数据显示,当用户参与规划时,他们可以帮助完善不完美的计划,例如纠正语法或结构中的错误,从而提高执行准确性。
此外,用户在执行阶段的参与在大多数研究的任务中导致了最高的准确水平。
分析表明,即使有高质量的计划,LLM代理在执行过程中仍可能由于预测错误——例如不正确的动作名称或参数——或预测失败而犯错,后者是指未提供有效的动作。
由于部署的LLM服务在规划或执行方面缺乏可靠性的保证,用户监督变得至关重要。
通过积极参与计划质量控制和监控风险行为,用户可以确保仅执行正确和安全的动作,从而导致更好和更可靠的任务结果。
考虑上面的图像,注意用户的计划编辑选项,以及在执行阶段用户参与的执行。用户可以手动选择提议的动作/计划。