
开启网络自动化:使用浏览器的 Ai 代理和双子座 2.0 如何改变在线任务
- Rifx.Online
- AI Applications , Software Development , Best Practices
- 26 Feb, 2025
想象一下拥有一个人工智能代理,它不仅可以回答基本问题,还可以自动预订航班、填写无聊的表格,甚至在线购物,完全自动化且无需您的干预。这就是浏览器使用的用武之地,这是一个开源框架,旨在允许人工智能代理自主与网络浏览器交互。
使用浏览器使用和谷歌航班进行人工智能代理网络自动化
它与顶级大语言模型提供商如OpenAI、Anthropic、谷歌Gemini、Mistral和DeepSeek集成。在这篇文章中,我将向您展示浏览器使用的工作原理以及如何与Gemini 2.0 Flash集成,它与OpenAI Operator和Anthropic Computer Use的比较,并提供关于如何安装和使用浏览器使用的逐步指南。
什么是浏览器使用?
一种强大的开源工具
浏览器使用 是一个 开源的人工智能驱动自动化工具,它将 大语言模型 连接到网页浏览器(如 Chrome),使其能够像人类用户一样与网站互动。它利用 Playwright 进行浏览器自动化,使人工智能代理能够执行以下任务:
- 自动填写和提交 工作申请。
- 抓取 各种网站的数据。
- 在线购物 并完成结账流程。
- 检查和重新安排预约,无需手动输入。
Gemini 2.0 Flash、浏览器使用和谷歌Chrome集成
为什么它脱颖而出
- 多标签功能: 管理多个需要多个浏览器标签的任务。
- 可自定义操作: 添加操作以保存文件、与数据库集成或发送自动电子邮件。
- 支持所有大语言模型: 不仅支持OpenAI和Anthropic,还支持谷歌Gemini、Mistral、DeepSeek及其他大语言模型。
浏览器使用 vs. OpenAI 操作员 vs. Anthropic 计算机使用
在选择人工智能网络自动化工具时,了解这三种解决方案之间的差异非常重要:
浏览器使用 vs. OpenAI 操作员 vs. Anthropic 计算机使用:功能比较
开源与闭源
- 浏览器使用 是开源的。
- OpenAI 操作员与 Anthropic 计算机使用 是专有项目。
LLM 兼容性
- 浏览器使用: 支持不同的 LLM 提供商 (OpenAI, Anthropic, Google Gemini, Mistral, 等)
- OpenAI 操作员: 仅在 ChatGPT Pro 上。
- Anthropic 计算机使用: 针对 Anthropic 的模型进行了优化。
自动化重点
- 浏览器使用: 专注于 网络交互(表单填写、数据抓取、在线购物)。
- Anthropic计算机使用: 针对 桌面自动化(管理本地文件、软件任务)量身定制。
- OpenAI操作员: 基于云的方法用于某些通用任务;在网页浏览器控制方面不够专业。
安装和使用浏览器使用的分步指南
第一步:创建虚拟环境
虚拟环境可以帮助您组织依赖:
python3 -m venv venv
source venv/bin/activate
venv\Scripts\activate
Step 2: 安装依赖
pip install browser-use
playwright install
第3步:设置环境变量
创建一个 .env 文件并添加您的谷歌API密钥。您可以在 这里 生成一个:
GOOGLE_API_KEY=your_google_api_key
第4步:创建一个Python脚本
创建 demo.py
:
from langchain_google_genai import ChatGoogleGenerativeAI
from browser_use import Agent, Browser, BrowserConfig
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to https://www.google.com/travel/flights and book a flight from Gothenburg to London on 2025-03-01 to 2025-03-10.",
llm=ChatGoogleGenerativeAI(model="gemini-2.0-flash"),
)
result = await agent.run()
print(result)
asyncio.run(main())
Step 5: Run the Script
您的人工智能代理将会在谷歌航班上搜索航班,并返回您旅行日期的最便宜选项。 task
参数可以修改为 填写表单、数据抓取、购物 和其他用例。
该人工智能代理与谷歌的 Gemini 2.0 Flash 集成,因为现在是免费的,但您可以通过更改 llm
参数使用任何其他大语言模型。
您可以在这个 github repo 上查看完整项目。
浏览器使用的主要用例
潜在客户生成
- 从网络抓取商业细节。
- 自动 将联系人插入到您的CRM中。
在线购物
- 比较不同网站的产品价格。
- 自动化多个订单的结账流程。
Web Scraping and Data Analysis
- Get financial reports for analysis.
- 抓取 real estate listings for price trend data.
HR and Recruitment Automation
- 填写并提交 工作申请。
- 从招聘门户抓取简历 以进行候选人评估。
结论
浏览器使用正在改变人工智能网页自动化。它的开源、大语言模型兼容性和多标签方法使其在OpenAI Operator和Anthropic Computer Use等解决方案中脱颖而出。如果您想自动化预订航班、抓取数据或在线购物,浏览器使用提供了一个强大且灵活的框架来改善您的自动化旅程。
让我们联系吧!
🚀 在 LinkedIn 上与我联系。 📖 查看我的 Medium 页面 以获取更多人工智能自动化用例。 📞 预约一对一咨询电话 开始您的人工智能项目。