Type something to search...
构建ai代理:使用browser-use库模拟openai Operator Agent的5个步骤

构建ai代理:使用browser-use库模拟openai Operator Agent的5个步骤

“浏览使用”库概述

“浏览使用”库与开放AI的“操作员”代理非常相似,因为两者都是旨在直接在网页浏览器中执行任务的人工智能系统,允许它们通过点击、输入和浏览页面与网站进行交互,以完成填写表单或收集信息等任务。然而,浏览使用是开源的,而操作员是一个在开放AI的服务器上运行的专有系统,并且还有一些其他的差异。

介绍

当人工智能代理需要与网络互动时,它们需要工具来模拟类似人类的浏览行为。其中一个工具是浏览使用库,旨在使大型语言模型(LLMs)和人工智能代理能够以高效的方式访问、浏览和与网页进行交互。

在这篇博客中,我们将探讨浏览使用库的工作原理、它们在人工智能驱动的自动化中的作用以及开发者的热门选择:

什么是浏览使用库?

浏览使用库是一个软件工具包,允许人工智能代理控制和自动化网页浏览器。这些库使得以下任务成为可能:

  • 打开网页
  • 填写表单
  • 点击按钮和链接
  • 提取文本和图像
  • 处理JavaScript重的网站

与仅仅获取静态HTML的简单网络抓取工具不同,浏览使用库允许实时交互,模拟人类用户在互联网上的浏览。

为什么LLMs和人工智能代理需要浏览使用库?

大型语言模型,例如GPT-4,固有上没有访问实时网络数据的能力。为了克服这一点,人工智能代理集成了浏览使用库,以便于:

  • 获取实时数据(例如,实时股票价格、天气更新)
  • 自动化基于网络的工作流程(例如,预订航班、提交表单)
  • 与动态网页内容进行交互(例如,处理基于JavaScript的网站)

例如,一个GPT驱动的人工智能代理可能会使用浏览使用库来:

  • 登录到仪表板并提取分析数据
  • 浏览电子商务网站以跟踪产品价格

热门浏览使用库

有几种自动化库可用,每种库都有独特的功能。让我们探索一些最受欢迎的选择:

  • Selenium
  • Puppeteer
  • Playwright
  • Requests + 美丽汤(用于简单情况)

让我们探索如何构建一个使用浏览使用库的人工智能代理示例:

安装 playwright

playwright install

安装 langchain_openai

pip install langchain_openai

安装浏览使用

pip install browser_use

Image 2

注意:这仅适用于 python >=3.11

示例 Python 代码:

文件名:BrowserAgent.py

Image 3

设置环境变量:OPEN_API_KEY

Image 4

使用命令运行:

python BrowserAgent.py

Image 5

在上述示例中,我有一个输入来执行以下操作:

前往 amazon.com,搜索“红色毛衣”,点击价格低于 $50 的第一个项目并添加到购物车

这是记录示例的 gif,其中浏览器被启动并将毛衣添加到购物车。

Image 6

人工智能代理的浏览自动化挑战:

虽然浏览使用库功能强大,但也面临挑战:

  • 验证码和机器人检测 — 许多网站使用验证码阻止自动化工具

  • JavaScript重的网站 — 一些需要完整的浏览器渲染

  • 性能问题 — 为人工智能代理运行完整浏览器资源密集

为了解决这些问题,我们可以使用 AI 驱动的验证码解决器和代理轮换作为解决方法。

人工智能中浏览使用库的未来

随着大型语言模型和人工智能代理的发展,浏览使用库也将随着以下方面进步:

  • 更好的 AI 驱动的网页导航 — 代理将更自然地理解和与网页互动

  • 语音控制浏览 — 人工智能将根据语音命令执行搜索

  • 与多模态大型语言模型的集成 — 未来的人工智能代理可能结合文本和视觉“看”网页,像人类一样。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...