
浏览器代理和 Llms:网络自动化统治终极指南!
- Rifx.Online
- AI Applications , Software Development , Best Practices
- 05 Mar, 2025
浏览器使用 是一个工具或平台,旨在使人工智能代理(如开放AI的GPT模型或其他大型语言模型)能够以智能和自动化的方式与网页浏览器进行交互和控制。它本质上弥合了人工智能能力与现实世界浏览器交互之间的差距,使得人工智能系统能够执行诸如导航网站、提取数据、填写表单、点击按钮等任务——就像人类用户一样。
浏览器使用的主要目标 是通过抽象浏览器自动化的复杂性,使网站对人工智能代理可访问和可操作。浏览器使用通过提取所有交互元素(如按钮、输入字段、链接等)并提供一个结构化的接口供人工智能代理进行交互,从而简化了这一过程,而不需要开发人员编写复杂的脚本来定位和与网页元素进行交互。
浏览器使用的关键特征
人工智能驱动的自动化
- 浏览器使用利用人工智能来理解和与网页交互。例如,它可以分析网页的内容,识别相关操作(如点击按钮或填写表单),并自主执行这些操作。
Vision + HTML Extraction
- 它将视觉理解(识别屏幕上的元素)与HTML结构提取(解析网页的底层代码)相结合。这种双重方法确保人工智能代理能够与静态和动态的网页元素进行交互,即使它们没有像ID或类这样的明确标识符。
多标签管理
- 浏览器使用可以同时处理多个浏览器标签,使人工智能代理能够执行涉及与多个网页交互的复杂工作流程。
元素跟踪
- 该工具跟踪人工智能代理执行的确切操作(例如,点击按钮或填写表单),并能够一致地复制这些操作,即使网站布局略有变化。这对于在QA自动化中创建自愈测试特别有用。
自定义操作
- 用户可以通过添加自定义操作来扩展浏览器使用,例如将数据保存到文件、执行数据库操作、发送通知或在自动化过程中的特定步骤处理人类输入。
自我修正
- 浏览器使用包括智能错误处理和自动恢复机制。如果在自动化过程中出现问题(例如,缺少元素或网络超时),工具可以检测到该问题并尝试自动恢复,从而确保工作流程不受干扰。
与多个大型语言模型的兼容性
- 浏览器使用支持各种大型语言模型(LLMs),包括开放AI的GPT-4、Anthropic的Claude和Meta的Llama 2。这种灵活性使用户能够根据他们的特定需求选择最佳的人工智能模型。
浏览器使用的工作原理
提取交互元素
- 浏览器使用 扫描网页并提取所有交互元素(按钮、输入字段、链接、表单等)。然后,它提供这些元素的结构化表示,供人工智能代理理解和交互。
AI Interaction
- 一旦识别出交互元素,人工智能代理可以执行诸如点击按钮、填写表单、在页面之间导航或提取数据等操作。人工智能代理还可以分析网页的内容,并根据找到的信息做出决策。
自动化工作流程
- 浏览器使用 允许用户创建复杂的自动化工作流程。例如,一个人工智能代理可以浏览电子商务网站,将商品添加到购物车,并完成购买——这一切都无需人工干预。
错误处理与恢复
- 如果在自动化过程中出现问题(例如,缺失的元素或加载缓慢的页面),浏览器使用 可以检测到该问题并尝试自动恢复。这确保了工作流程在不可预测的环境中能够顺利进行。
浏览器使用的安装指南
开始使用 浏览器使用 是直接的,但需要一些初始设置以确保一切顺利运行。以下是基于您提供的先决条件和步骤的详细 安装指南。本指南将引导您在本地机器上设置 浏览器使用。
先决条件
在开始之前,请确保您已安装以下先决条件:
- Node.js(版本 14 或更高)
- npm(Node 包管理器,随 Node.js 一起提供)
- 现代网页浏览器(例如,Chrome,Firefox)
安装步骤
-
克隆代码库
首先将代码库克隆到本地机器:
git clone https://github.com/yourusername/browser-use.git
-
导航到目录
切换到克隆的代码库目录:
cd browser-use
-
安装依赖
使用 npm 安装必要的依赖:
npm install
-
启动应用
一旦依赖安装完成,您可以启动应用:
npm start
访问应用
启动应用后,打开您的网页浏览器并导航到:
http://localhost:3000
您应该会看到 浏览器使用 的欢迎页面。
故障排除
如果您遇到任何问题,请考虑以下事项:
-
确保 Node.js 和 npm 正确安装,通过运行以下命令检查:
node -v npm -v
-
检查终端中是否有任何错误消息,并相应地解决它们。
结论
您已成功在本地机器上设置 浏览器使用。现在您可以开始使用该应用并探索其功能。
前提条件
在开始安装之前,请确保您具备以下条件:
- 现代网页浏览器(例如,Chrome、Firefox、Safari)
- 您的机器上安装了 Node.js
- 对命令行界面有基本了解
安装步骤
-
克隆代码库
git clone https://github.com/your-repo/browser-use.git
-
导航到项目目录
cd browser-use
-
安装依赖
npm install
-
启动开发服务器
npm start
-
打开您的浏览器
- 前往
http://localhost:3000
- 前往
配置
安装后,您可能希望配置应用的设置。这可以通过编辑位于以下位置的配置文件来完成:
/config/settings.js
故障排除
如果在安装过程中遇到任何问题,请考虑以下事项:
-
确保 Node.js 已正确安装,可以通过运行以下命令来检查:
node -v
-
检查是否有缺失的依赖,并使用以下命令安装它们:
npm install <package-name>
结论
您现在应该在本地机器上设置并运行了 浏览器使用。有关进一步的自定义和高级功能,请参阅官方文档。
先决条件
在开始之前,请确保您的系统满足以下要求:
Python 3.11 或更高版本:
您可以通过运行以下命令检查您的 Python 版本:
python --version
Git:
需要 Git 来克隆代码库。
本地安装
步骤 1:克隆代码库
git clone https://github.com/browser-use/web-ui.git
cd web-ui
Step 2: Set Up Python Environment
我们推荐使用 uv 来管理 Python 环境。
使用 uv (推荐) 在 Mac 上
curl -LsSf https://astral.sh/uv/install.sh | sh
创建虚拟环境
运行以下命令以使用 Python 3.11 创建虚拟环境:
## Command to create a virtual environment
python3.11 -m venv .venv
激活虚拟环境
- Windows (命令提示符):
.venv\Scripts\activate
- macOS/Linux:
source .venv/bin/activate
一旦激活,您应该在终端提示符中看到 (.venv),这表示虚拟环境处于活动状态。
第3步:安装依赖
现在您的环境已设置好,是时候安装必要的依赖。
安装Python包
使用以下命令安装在 requirements.txt
中列出的所需Python包:
pip install -r requirements.txt
Step 4: Install Playwright
Playwright 是一个用于浏览器自动化的库,供浏览器使用。
要安装它,请运行以下命令:
npm install playwright
本地设置指南:浏览器使用 WebUI
一旦您完成了浏览器使用的安装步骤,您就可以开始在本地运行 WebUI。此指南将引导您启动应用,定制其设置,并在需要时配置它以使用您自己的现代网页浏览器。
运行 WebUI
完成安装步骤后,您可以通过运行以下命令启动 浏览器使用 WebUI:
python webui.py --ip 127.0.0.1 --port 7788
WebUI 提供了多个选项来定制其行为。以下是可用标志的详细说明:
--ip
: 绑定 WebUI 的 IP 地址。- 默认:
127.0.0.1
(本地主机)
- 默认:
--port
: 绑定 WebUI 的端口。- 默认:
7788
- 默认:
--theme
: 用户界面的主题。
访问 WebUI
一旦 WebUI 正在运行,打开您的现代网页浏览器并导航到:
一旦上述命令执行,您应该会看到 浏览器使用 界面,您可以在此与工具交互并配置 基于人工智能 的 浏览器自动化 任务。
LLM配置
在LLM配置中,选择语言模型,例如gemini
。Gemini提供免费的API密钥。
从下面附带的链接生成API密钥。
在下面的截图中,您可以看到我们添加了通过上述链接生成的API密钥。
运行代理
在运行代理中,我们给出提示 “前往 amazon.in 并输入 ‘Playwright’,点击搜索并给我第一个网址”
提示:
"go to amazon.in and type 'Playwright' click search and give me the first url"
在下面的截图中,您可以看到当我们运行提示时,它将打开 Chromium 浏览器并与页面的整个 DOM 进行交互。
最后,它将在搜索框中输入值 Playwright
,您可以在下面的截图中看到。
在下面的截图中,您可以看到它给了我们第一个网址。
在后台,您可以看到所有的日志都被执行;无论代理执行什么,它都会在后台记录所有日志。
结果
在结果选项卡中,您可以看到最终结果、模型操作、模型思考、跟踪文件和代理历史记录。
视频
我们可以通过点击提供的链接下载视频,或者在录制选项卡下查看附加的视频。
在视频中,您可以看到代理执行的所有步骤。
以下是一些截图:
结论
大型语言模型 (LLMs)、Playwright、浏览器使用和 Web 用户界面的集成代表了浏览器自动化和人工智能驱动工作流程领域的突破性飞跃。
通过结合这些强大的工具,您可以创建智能浏览器代理,能够在最小的人为干预下执行复杂任务。从自动化重复过程到实现动态质量保证测试和实时决策,可能性既广泛又具有变革性。