Type something to search...
使用 Google 双子座 2.0 轻松进行网络抓取

使用 Google 双子座 2.0 轻松进行网络抓取

网页抓取从未如此简单,这都要感谢谷歌开创性的多模态实时 API——Gemini 2.0\。

使用这个工具,您可以轻松地从任何网页中提取数据,无论是复杂的、非结构化的,还是某些非常特定的数据。

今天,我将逐步带您体验我自己尝试过的实际示例,这样您就会确切知道该怎么做。

即使您是完全的初学者,您也会在短时间内感觉像个专业人士。

让我们开始吧!

入门:设置 Google AI Studio

在我们开始示例之前,让我向您展示如何进行设置:

  1. 访问 Google AI Studio: 打开 Google AI Studio,并使用您的 Google 账户登录。
  2. 启用“共享您的屏幕”: 您可以在工具下找到此选项。点击它,并确保选择“共享整个屏幕”,而不仅仅是一个标签。这非常重要,因为 Gemini 2.0 将处理您整个屏幕上的内容。
  3. 选择输出格式: 在开始之前,将输出格式设置为“文本”。这确保 Gemini 能够以可读且结构化的格式返回结果。

完成后,您就准备好了。

以下是参考的截图。

现在让我带您了解我自己尝试的两个示例。

示例 1:在滚动时抓取 Airbnb 评论

场景如下:

我想从一个 Airbnb 列表中抓取评论,但评论只有在滚动时加载。

那么如何无缝提取这些信息呢?

以下是我一步步完成的方法:

我打开了一个 Airbnb 列表并点击了评论部分,我选择了一个随机的房产进行测试并打开了评论部分。

在 Gemini 2.0 激活的情况下,我分享了我的整个屏幕(如之前设置的那样)

我通过语音给它下达了这个命令:

“将屏幕上可见的所有评论提取为结构化格式。随着我滚动继续提取。”

当我浏览评论时,Gemini 2.0 实时持续提取数据。它不需要我停止或重新加载——它只是不断捕捉可见的评论。

一旦我完成滚动,Gemini 就以干净的结构化格式返回了评论。输出包括:

  • 评论者的姓名
  • 评论日期
  • 星级评分
  • 评论的完整文本

这是截图,显示 AI 如何抓取并给我输出

这有什么用?

无论您是在分析客户反馈还是汇总评论以进行比较,这种方法都可以为您节省数小时的手动复制和粘贴。

输出示例 (JSON):

[
    {
        "name": "Sonal",
        "date": "3 days ago",
        "stars": "5",
        "text": "The place was beautiful and we were awestruck to see such a well maintained and designed property within Bangalore."
    },
    {
        "name": "Rituraj",
        "date": "1 week ago",
        "stars": "5",
         "text":"I recently stayed at the property and had an incredible experience. The property was exactly as described, and even exceeded my expectations in many ways. The space was clean, well-maintained, and thoughtfully designed. Our host, was amazing—super responsive, friendly, and helpful. Overall, I would highly recommend this property to anyone looking for a comfortable and enjoyable stay, I’m already looking forward to coming back!"
    },
    {
       "name": "Damodar",
       "date": "June 2024",
        "stars": "5",
       "text": "It was a wonderful stay, nice clean pool, tidy rooms, ample entertainment sources like games(football, carrom etc.), decent piano to play, each room had a TV and living room had a big projector screen. Caretaker Laxman was polite and helpful. Ample amount of seating area all over and great cosy beds made our sleep pretty comfortable. Kids also enjoyed the indoor swing seats a lot. Trust me it is a great place to stay...SUPER COMFORTABLE and enjoyable  The only drawback was one of the food provider near by called Chaitra...suggest whoever goes there either cook your own food in the excellent kitchen or order/dine at nearby restaurants ...many options are there within 5 Kms. We had dinner and breakfast from the food vendor however the quality was not up to mark. Non veg food was not cooked completely. We ordered barbeque veg non veg and non veg took much time to cook and even after that it was not roasted/ cooked properly.. have strong doubts on their raw material"
    }
]

就这样!Gemini 2.0 让这个过程变得极其简单。

示例 2:从研究文章中提取特定数据

对于我的第二个用例,我想从一篇研究文章中提取仅仅是表格数据——而不是整个页面。这次,我专注于精确性。以下是我的操作方法:

我找到了一篇包含标题为“供需组成的综合视图,欧盟,2021年和2022年”的表格的文章。

和之前一样,我共享了我的全屏,以便让Gemini看到整篇文章。

我告诉Gemini:

“仅提取该文章中的表格数据,并将其转换为JSON格式。”

Gemini立即识别出表格,提取了数据,并以请求的JSON格式返回。

以下是Gemini给我的输出:

{
  "Table": {
    "Title": "Synoptic view of supply and use components, EU, 2021 and 2022",
    "Unit": "(€ Billion)",
    "Rows": [
      {
        "Item": "1. Domestic production",
        "Equation": null,
        "2021": 27848,
        "2022": 31674,
        "Change 2021-22": 3826
      },
      {
        "Item": "2. Imports of goods and services",
        "Equation": null,
        "2021": 2378,
        "2022": 3198,
        "Change 2021-22": 820
      },
      {
        "Item": "3. Total supply",
         "Equation": "1+2",
        "2021": 30226,
        "2022": 34779,
        "Change 2021-22": 4552
      },
      {
        "Item": "4. Intermediate consumption",
        "Equation": null,
        "2021": 14343,
        "2022": 16340,
        "Change 2021-22": 1997
      },
      {
        "Item": "5. Final consumption expenditure of households",
        "Equation": null,
        "2021": 11554,
        "2022": 12541,
        "Change 2021-22": 986
      },
      {
        "Item": "6. Final consumption expenditure of government",
        "Equation": null,
        "2021": 3188,
        "2022": 3375,
        "Change 2021-22": 187
       },
      {
         "Item": "7. Final consumption expenditure of NPISH",
         "Equation": null,
         "2021": 193,
         "2022": 209,
         "Change 2021-22": 15
      },
      {
         "Item": "8. Final consumption expenditure",
         "Equation":"= 5+6+7",
        "2021": 14936,
         "2022": 16125,
         "Change 2021-22": 1068
        },
      {
        "Item": "9. Gross fixed capital formation",
        "Equation": null,
        "2021": 2538,
        "2022": 2865,
        "Change 2021-22": 326
      },
       {
        "Item": "10. Changes in inventories and acquisitions less disposals of valuables",
        "Equation": null,
        "2021": 226,
        "2022": 323,
        "Change 2021-22": 98
      },
      {
        "Item": "11. Gross capital formation",
        "Equation": "= 9+10",
        "2021": 2764,
        "2022": 3188,
        "Change 2021-22": 424
      },
       {
        "Item":"12. Exports of goods and services",
        "Equation": null,
         "2021": 2891,
         "2022": 3291,
         "Change 2021-22": 400
       },
      {
       "Item": "13. Total use",
        "Equation":"= 4+8+11+12",
        "2021":30228,
        "2022":34779,
        "Change 2021-22":4552
        },
       {
        "Item": "14. Taxes less subsidies on products",
         "Equation": null,
         "2021": 459,
          "2022":482,
         "Change 2021-22": 24
        },
       {
        "Item": "15. Value added",
         "Equation":"= 1-4 =16+17+18",
         "2021": 13005,
          "2022": 14334,
         "Change 2021-22": 1330
        },
        {
        "Item": "16. Compensation of employees",
         "Equation": null,
         "2021": 6954,
          "2022": 7447,
         "Change 2021-22": 493
        },
         {
        "Item": "17. Gross operating surplus and mixed income",
         "Equation": null,
         "2021": 6013,
          "2022": 6608,
         "Change 2021-22": 595
        },
        {
         "Item": "18. Other taxes less subsidies on production",
         "Equation": null,
         "2021": 32,
          "2022": 158,
         "Change 2021-22": 127
        }
    ]
   }
}

这有什么用?

如果你正在处理研究数据、表格或报告,你可以仅提取所需的信息而不受干扰。然后,你可以分析它,将其转换为电子表格,或者以你想要的方式进行可视化。

为什么 Gemini 2.0 让网页抓取变得如此简单

使用 Gemini 2.0,您无需编写一行代码。

只需与 AI 交谈,描述您想要的内容,它就能处理繁重的工作。

无论您是在浏览评论还是提取精确数据,Gemini 都能轻松适应您的需求。

尝试一下吧!

以下是一些可以帮助你入门的想法:

  • 提取亚马逊评论或产品数据。
  • 爬取餐厅列表或酒店详情。
  • 从文章中提取财务表格或统计数据,就像我做的那样。

设置 Gemini 2.0,分享你的屏幕,简单地告诉它你需要什么。

这使得网络爬虫变得极其简单。

如果你想了解更多关于网络爬虫工具的信息,这里有我的文章,你可以查看。

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多