Type something to search...
焦点正从人工智能代理转向人工智能代理工具的使用

焦点正从人工智能代理转向人工智能代理工具的使用

关于AI代理的关注点正在从单纯开发自主AI代理转向增强可供它们使用的工具,这直接影响到它们的能力和灵活性。

AI代理的功能和范围在很大程度上依赖于工具的访问,工具以自然语言描述,并通过代理的内部推理激活。

桌面和其他用户特定环境提供了代理有效执行任务所需的丰富上下文,使它们成为理想的操作空间。

✨✨ 在 LinkedIn 上关注我 ✨✨

介绍

随着模型成为实用工具,启用工具的框架和环境正在成为关键,领先的人工智能公司如OpenAI和Anthropic正在探索使用计算机GUI导航来完成复杂任务的AI代理。

OpenAI最近宣布,准备发布一款AI代理Operator,它将在用户的计算机上自主执行任务,如编码和预订旅行,并将在1月作为研究预览版推出。

这一发布与整个行业向更强大的代理工具转变的趋势一致,这些工具能够在最少监督下管理多步骤工作流程。

其他主要参与者也在推出能够实时计算机导航的代理工具,这反映出通过工具访问增强AI代理能力的战略性举措,而不仅仅是提高模型的能力。

人工智能计算机使用

Anthropic 提供了一个 参考实现,其中包含了您快速开始计算机使用所需的一切。

上面的图像显示了在我的桌面上运行的 AI 代理,我需要在我的 MacBook 上安装 Docker 并将 Docker 镜像部署到我的机器上。

下面的脚本就是您所需的全部内容,以部署实例并使其正常运行。

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=<Your Anthropic API Key Goes Here> \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

下面是我运行文件的终端窗口的截图…

该实现包括:

  • 一个适用于与 Claude 进行计算机使用的 容器化环境
  • 计算机使用工具 的实现
  • 一个与 Anthropic API 交互并执行计算机使用工具的 代理循环
  • 一个与容器、代理循环和工具交互的网页界面。

Anthropic AI Agent 详细信息

Anthropic AI Agent 可以访问三个主要的 工具/功能,使我能够与 Ubuntu 虚拟机环境进行交互:

计算机功能:

  • 这是与GUI环境交互的主要接口
  • 允许AI代理执行鼠标和键盘操作,例如:
  • 移动光标 (mouse_move)
  • 点击 (left_click, right_click, middle_click, double_click)
  • 输入文本 (type)
  • 按键组合 (key)
  • 截图 (screenshot)
  • 显示分辨率设置为1024x768
  • 显示编号为 :1
  • AI代理在点击元素之前需要通过截图检查坐标

bash 函数:

  • 给予 AI Agent 访问 bash shell 的权限以运行命令
  • 状态在命令之间保持
  • 可以通过 apt 和 pip 安装软件包
  • 可以运行后台进程
  • 对于 GUI 应用程序,需要设置 DISPLAY=:1 环境变量

str_replace_editor 函数:

  • 文件操作工具,允许:
  • 查看文件和目录 (view)
  • 创建新文件 (create)
  • 替换文件中的文本 (str_replace)
  • 在特定行插入文本 (insert)
  • 撤销编辑 (undo_edit)
  • 在操作之间保持状态

重要约束

  • 不能在社交媒体/通讯平台上创建账户
  • 不能在没有用户协助的情况下处理 CAPTCHA/reCAPTCHA
  • 不能在没有用户指示的情况下同意服务条款
  • 不能在社交媒体上发布评论/反应
  • 不能访问选民注册或选举基础设施数据

系统运行在 aarch64 架构的 Ubuntu 虚拟机上,我通过 Docker 容器在我的笔记本电脑上运行它。

这些工具为 AI Agent 提供了一种受控但灵活的方式来与虚拟环境互动,结合了 GUI 交互、命令行操作和文件操作能力。

我的环境在每个会话中都是新初始化的,但在工具调用之间保持状态。

AI Agent 可以通过 Firefox 使用互联网,并根据需要通过软件包管理系统安装额外的软件。

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多