
构建ai代理:使用browser-use库模拟openai Operator Agent的5个步骤
“浏览使用”库概述
“浏览使用”库与开放AI的“操作员”代理非常相似,因为两者都是旨在直接在网页浏览器中执行任务的人工智能系统,允许它们通过点击、输入和浏览页面与网站进行交互,以完成填写表单或收集信息等任务。然而,浏览使用是开源的,而操作员是一个在开放AI的服务器上运行的专有系统,并且还有一些其他的差异。
介绍
当人工智能代理需要与网络互动时,它们需要工具来模拟类似人类的浏览行为。其中一个工具是浏览使用库,旨在使大型语言模型(LLMs)和人工智能代理能够以高效的方式访问、浏览和与网页进行交互。
在这篇博客中,我们将探讨浏览使用库的工作原理、它们在人工智能驱动的自动化中的作用以及开发者的热门选择:
什么是浏览使用库?
浏览使用库是一个软件工具包,允许人工智能代理控制和自动化网页浏览器。这些库使得以下任务成为可能:
- 打开网页
- 填写表单
- 点击按钮和链接
- 提取文本和图像
- 处理JavaScript重的网站
与仅仅获取静态HTML的简单网络抓取工具不同,浏览使用库允许实时交互,模拟人类用户在互联网上的浏览。
为什么LLMs和人工智能代理需要浏览使用库?
大型语言模型,例如GPT-4,固有上没有访问实时网络数据的能力。为了克服这一点,人工智能代理集成了浏览使用库,以便于:
- 获取实时数据(例如,实时股票价格、天气更新)
- 自动化基于网络的工作流程(例如,预订航班、提交表单)
- 与动态网页内容进行交互(例如,处理基于JavaScript的网站)
例如,一个GPT驱动的人工智能代理可能会使用浏览使用库来:
- 登录到仪表板并提取分析数据
- 浏览电子商务网站以跟踪产品价格
热门浏览使用库
有几种自动化库可用,每种库都有独特的功能。让我们探索一些最受欢迎的选择:
- Selenium
- Puppeteer
- Playwright
- Requests + 美丽汤(用于简单情况)
让我们探索如何构建一个使用浏览使用库的人工智能代理示例:
安装 playwright
playwright install
安装 langchain_openai
pip install langchain_openai
安装浏览使用
pip install browser_use
注意:这仅适用于 python >=3.11
示例 Python 代码:
文件名:BrowserAgent.py
设置环境变量:OPEN_API_KEY
使用命令运行:
python BrowserAgent.py
在上述示例中,我有一个输入来执行以下操作:
前往 amazon.com,搜索“红色毛衣”,点击价格低于 $50 的第一个项目并添加到购物车
这是记录示例的 gif,其中浏览器被启动并将毛衣添加到购物车。
人工智能代理的浏览自动化挑战:
虽然浏览使用库功能强大,但也面临挑战:
-
验证码和机器人检测 — 许多网站使用验证码阻止自动化工具
-
JavaScript重的网站 — 一些需要完整的浏览器渲染
-
性能问题 — 为人工智能代理运行完整浏览器资源密集
为了解决这些问题,我们可以使用 AI 驱动的验证码解决器和代理轮换作为解决方法。
人工智能中浏览使用库的未来
随着大型语言模型和人工智能代理的发展,浏览使用库也将随着以下方面进步:
-
更好的 AI 驱动的网页导航 — 代理将更自然地理解和与网页互动
-
语音控制浏览 — 人工智能将根据语音命令执行搜索
-
与多模态大型语言模型的集成 — 未来的人工智能代理可能结合文本和视觉“看”网页,像人类一样。