Type something to search...
浏览器代理和 Llms:网络自动化统治终极指南!

浏览器代理和 Llms:网络自动化统治终极指南!

浏览器使用 是一个工具或平台,旨在使人工智能代理(如开放AI的GPT模型或其他大型语言模型)能够以智能和自动化的方式与网页浏览器进行交互和控制。它本质上弥合了人工智能能力与现实世界浏览器交互之间的差距,使得人工智能系统能够执行诸如导航网站、提取数据、填写表单、点击按钮等任务——就像人类用户一样。

浏览器使用的主要目标 是通过抽象浏览器自动化的复杂性,使网站对人工智能代理可访问和可操作。浏览器使用通过提取所有交互元素(如按钮、输入字段、链接等)并提供一个结构化的接口供人工智能代理进行交互,从而简化了这一过程,而不需要开发人员编写复杂的脚本来定位和与网页元素进行交互。

浏览器使用的关键特征

人工智能驱动的自动化

  • 浏览器使用利用人工智能来理解和与网页交互。例如,它可以分析网页的内容,识别相关操作(如点击按钮或填写表单),并自主执行这些操作。

Vision + HTML Extraction

  • 它将视觉理解(识别屏幕上的元素)与HTML结构提取(解析网页的底层代码)相结合。这种双重方法确保人工智能代理能够与静态和动态的网页元素进行交互,即使它们没有像ID或类这样的明确标识符。

多标签管理

  • 浏览器使用可以同时处理多个浏览器标签,使人工智能代理能够执行涉及与多个网页交互的复杂工作流程。

元素跟踪

  • 该工具跟踪人工智能代理执行的确切操作(例如,点击按钮或填写表单),并能够一致地复制这些操作,即使网站布局略有变化。这对于在QA自动化中创建自愈测试特别有用。

自定义操作

  • 用户可以通过添加自定义操作来扩展浏览器使用,例如将数据保存到文件、执行数据库操作、发送通知或在自动化过程中的特定步骤处理人类输入。

自我修正

  • 浏览器使用包括智能错误处理和自动恢复机制。如果在自动化过程中出现问题(例如,缺少元素或网络超时),工具可以检测到该问题并尝试自动恢复,从而确保工作流程不受干扰。

与多个大型语言模型的兼容性

  • 浏览器使用支持各种大型语言模型(LLMs),包括开放AI的GPT-4、Anthropic的Claude和Meta的Llama 2。这种灵活性使用户能够根据他们的特定需求选择最佳的人工智能模型。

浏览器使用的工作原理

提取交互元素

  • 浏览器使用 扫描网页并提取所有交互元素(按钮、输入字段、链接、表单等)。然后,它提供这些元素的结构化表示,供人工智能代理理解和交互。

AI Interaction

  • 一旦识别出交互元素,人工智能代理可以执行诸如点击按钮、填写表单、在页面之间导航或提取数据等操作。人工智能代理还可以分析网页的内容,并根据找到的信息做出决策。

自动化工作流程

  • 浏览器使用 允许用户创建复杂的自动化工作流程。例如,一个人工智能代理可以浏览电子商务网站,将商品添加到购物车,并完成购买——这一切都无需人工干预。

错误处理与恢复

  • 如果在自动化过程中出现问题(例如,缺失的元素或加载缓慢的页面),浏览器使用 可以检测到该问题并尝试自动恢复。这确保了工作流程在不可预测的环境中能够顺利进行。

浏览器使用的安装指南

开始使用 浏览器使用 是直接的,但需要一些初始设置以确保一切顺利运行。以下是基于您提供的先决条件和步骤的详细 安装指南。本指南将引导您在本地机器上设置 浏览器使用

先决条件

在开始之前,请确保您已安装以下先决条件:

  • Node.js(版本 14 或更高)
  • npm(Node 包管理器,随 Node.js 一起提供)
  • 现代网页浏览器(例如,Chrome,Firefox)

安装步骤

  1. 克隆代码库

    首先将代码库克隆到本地机器:

    git clone https://github.com/yourusername/browser-use.git
    
  2. 导航到目录

    切换到克隆的代码库目录:

    cd browser-use
    
  3. 安装依赖

    使用 npm 安装必要的依赖:

    npm install
    
  4. 启动应用

    一旦依赖安装完成,您可以启动应用:

    npm start
    

访问应用

启动应用后,打开您的网页浏览器并导航到:

http://localhost:3000

您应该会看到 浏览器使用 的欢迎页面。

故障排除

如果您遇到任何问题,请考虑以下事项:

  • 确保 Node.js 和 npm 正确安装,通过运行以下命令检查:

    node -v
    npm -v
    
  • 检查终端中是否有任何错误消息,并相应地解决它们。

结论

您已成功在本地机器上设置 浏览器使用。现在您可以开始使用该应用并探索其功能。

前提条件

在开始安装之前,请确保您具备以下条件:

  • 现代网页浏览器(例如,Chrome、Firefox、Safari)
  • 您的机器上安装了 Node.js
  • 对命令行界面有基本了解

安装步骤

  1. 克隆代码库

    git clone https://github.com/your-repo/browser-use.git
    
  2. 导航到项目目录

    cd browser-use
    
  3. 安装依赖

    npm install
    
  4. 启动开发服务器

    npm start
    
  5. 打开您的浏览器

    • 前往 http://localhost:3000

配置

安装后,您可能希望配置应用的设置。这可以通过编辑位于以下位置的配置文件来完成:

/config/settings.js

故障排除

如果在安装过程中遇到任何问题,请考虑以下事项:

  • 确保 Node.js 已正确安装,可以通过运行以下命令来检查:

    node -v
    
  • 检查是否有缺失的依赖,并使用以下命令安装它们:

    npm install <package-name>
    

结论

您现在应该在本地机器上设置并运行了 浏览器使用。有关进一步的自定义和高级功能,请参阅官方文档。

先决条件

在开始之前,请确保您的系统满足以下要求:

Python 3.11 或更高版本
您可以通过运行以下命令检查您的 Python 版本:

python --version

Git
需要 Git 来克隆代码库。

本地安装

步骤 1:克隆代码库

git clone https://github.com/browser-use/web-ui.git
cd web-ui

Step 2: Set Up Python Environment

我们推荐使用 uv 来管理 Python 环境。

使用 uv (推荐) 在 Mac 上

curl -LsSf https://astral.sh/uv/install.sh | sh

Image 36

创建虚拟环境

运行以下命令以使用 Python 3.11 创建虚拟环境:

## Command to create a virtual environment
python3.11 -m venv .venv

Image 37

激活虚拟环境

  • Windows (命令提示符):
.venv\Scripts\activate
  • macOS/Linux:
source .venv/bin/activate

一旦激活,您应该在终端提示符中看到 (.venv),这表示虚拟环境处于活动状态。

第3步:安装依赖

现在您的环境已设置好,是时候安装必要的依赖。

安装Python包

使用以下命令安装在 requirements.txt 中列出的所需Python包:

pip install -r requirements.txt

Image 38

Step 4: Install Playwright

Playwright 是一个用于浏览器自动化的库,供浏览器使用。

要安装它,请运行以下命令:

npm install playwright

本地设置指南:浏览器使用 WebUI

一旦您完成了浏览器使用的安装步骤,您就可以开始在本地运行 WebUI。此指南将引导您启动应用,定制其设置,并在需要时配置它以使用您自己的现代网页浏览器。

运行 WebUI

完成安装步骤后,您可以通过运行以下命令启动 浏览器使用 WebUI:

python webui.py --ip 127.0.0.1 --port 7788

WebUI 提供了多个选项来定制其行为。以下是可用标志的详细说明:

  • --ip: 绑定 WebUI 的 IP 地址。
    • 默认: 127.0.0.1 (本地主机)
  • --port: 绑定 WebUI 的端口。
    • 默认: 7788
  • --theme: 用户界面的主题。

访问 WebUI

一旦 WebUI 正在运行,打开您的现代网页浏览器并导航到:

Image 39

一旦上述命令执行,您应该会看到 浏览器使用 界面,您可以在此与工具交互并配置 基于人工智能 的 浏览器自动化 任务。

Image 40

LLM配置

在LLM配置中,选择语言模型,例如gemini。Gemini提供免费的API密钥。

Image 41

从下面附带的链接生成API密钥。

Image 42

在下面的截图中,您可以看到我们添加了通过上述链接生成的API密钥。

Image 43

运行代理

在运行代理中,我们给出提示 “前往 amazon.in 并输入 ‘Playwright’,点击搜索并给我第一个网址

提示:

"go to amazon.in and type 'Playwright' click search and give me the first url"

Image 44

在下面的截图中,您可以看到当我们运行提示时,它将打开 Chromium 浏览器并与页面的整个 DOM 进行交互。

Image 45

最后,它将在搜索框中输入值 Playwright,您可以在下面的截图中看到。

Image 46

在下面的截图中,您可以看到它给了我们第一个网址。

Image 47

在后台,您可以看到所有的日志都被执行;无论代理执行什么,它都会在后台记录所有日志。

Image 48

结果

在结果选项卡中,您可以看到最终结果、模型操作、模型思考、跟踪文件和代理历史记录。

Image 49

视频

我们可以通过点击提供的链接下载视频,或者在录制选项卡下查看附加的视频。

在视频中,您可以看到代理执行的所有步骤。

以下是一些截图:

Image 50

Image 51

结论

大型语言模型 (LLMs)、Playwright、浏览器使用和 Web 用户界面的集成代表了浏览器自动化和人工智能驱动工作流程领域的突破性飞跃。

通过结合这些强大的工具,您可以创建智能浏览器代理,能够在最小的人为干预下执行复杂任务。从自动化重复过程到实现动态质量保证测试和实时决策,可能性既广泛又具有变革性。

参考

https://browser-use.com/

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...