Type something to search...
Ai Agent Reality Check:人类监督能否驯服炒作?

Ai Agent Reality Check:人类监督能否驯服炒作?

人工智能代理自主性的热潮正在降温,人类监督正在回归

监督

我们对人工智能代理的看法正在发生变化。让我在这里快速概述一下……

HuggingFace 发布了一项研究,他们认为 人工智能代理不应完全自主,尤其是在必要的保障措施没有得到充分开发的情况下。

他们建议采取一种方法,进行 不同程度 的人类监督。

这是我一直倡导的观点,即需要有 代理水平,并且人类监督的程度各不相同。

与其直接转向完全自主的人工智能代理,我们应该将不同的 级别 或自主性融入日常应用中。

这为自动化提供了一条更平衡的路径。

通过这种方式,用户可以享受人工智能助手的好处,同时对关键决策和行动保持控制。

通过 逐步 引入 代理,应用程序可以提供自适应支持和智能建议,而不会越过完全自主的界限。

这促进了一个协作环境,在这个环境中,人类监督和人工智能能力和谐地协同工作。

现代工作

最近,Prasanna Arikala 表示,员工花费多达 30% 的时间来搜索文档和信息。

Jerry Liu 最近也表示,知识工作者将 50–80% 或更多的时间用于分析、综合和创建非结构化数据——想想你一天中有多少时间花在阅读报告、文档、演示文稿或制作这些材料的新版本上。

因此,代理RAG 或 知识代理 可以帮助自动化这些重复的知识任务。

通过这样做,我们可以释放出宝贵的时间,使人们能够专注于批判性思维、更好的决策,并减少职业倦怠。

早期出现的用例包括 研究助手自动化工作流程报告生成,展示了这种方法的变革潜力。

如果你喜欢这篇文章

在Medium上关注我并免费订阅。

让我们在LinkedIn上联系,并在X上保持联系!

任务分类

该研究还根据 ** 领域 ** 或 ** 意图 ** 对任务进行分类,并考虑相关的 ** 风险 **。

动作数量 是重要的,因为 人工智能代理 需要预测为某项任务需要采取多少步骤或行动。

如果动作数量增加,成本也会增加,同时引入不准确性的可能性也会增加。

命名概念是指每个任务中提供的命名概念的数量。根据之前的研究,大多数人一次只能处理 5 到 9 个概念。

Image 16

人类监督

考虑下面的图像,这是以适度的方式引入代理的一个良好示例。

用户提出了一个问题:I need to set an alarm for every weekday morning at 7:30, and then cancel the alarm for Thursday, changing it to 8:00 in the evening.

这是一个复合且多意图的表达,但请看代理助手如何将请求分解为一系列任务和子任务。用户可以选择删除步骤或通过拆分步骤来细化步骤。

Image 17

用户在看到良好的规划时会认可它…

但他们不一定能提出计划。

用户参与任务的规划和执行并不会显著提高信任或导致对结果的更好校准信任。

事实上,参与规划有时可能会损害计划质量,特别是在初始计划已经很强的任务中,这可能导致执行期间的表现更差。

结果表明,用户参与并不固有地帮助建立信任。

相反,计划本身的质量起着至关重要的作用,与规划和执行中的信任之间存在强正相关关系。

当计划结构良好且质量高时,用户往往更信任人工智能代理,他们的信任也相应地对齐。

然而,当计划质量较低时,用户难以调整他们的信任水平。

这种不对齐可能源于人工智能生成的计划的说服力,这些计划在乍一看时往往显得合乎逻辑且可信。

Image 18

此图显示了左侧生成的计划,以及右侧的对话。

成功的规划并不等于成功的执行

用户参与规划和执行可以提高整体任务表现,特别是通过改善执行准确性。

数据显示,当用户参与规划时,他们可以帮助完善不完美的计划,例如纠正语法或结构中的错误,从而提高执行准确性。

此外,用户在执行阶段的参与在大多数研究的任务中导致了最高的准确水平。

分析表明,即使有高质量的计划,LLM代理在执行过程中仍可能由于预测错误——例如不正确的动作名称或参数——或预测失败而犯错,后者是指未提供有效的动作。

由于部署的LLM服务在规划或执行方面缺乏可靠性的保证,用户监督变得至关重要

通过积极参与计划质量控制和监控风险行为,用户可以确保仅执行正确和安全的动作,从而导致更好和更可靠的任务结果。

Image 19

考虑上面的图像,注意用户的计划编辑选项,以及在执行阶段用户参与的执行。用户可以手动选择提议的动作/计划。

Image 20

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...