
自动化与创新:利用生成式ai工具实现被动数据收集的最佳实践
- Rifx.Online
- Generative AI , Large Language Models , AI Applications
- 26 Feb, 2025
25年前,我在苏黎世大学学习时,在社会学系找了一份暑期工作。我的任务是阅读十几份日报,找出涵盖最近举行的瑞士立法选举(Nationalratswahlen)的文章。然后,我需要根据这些文章对选举的正面或负面描述进行分类。
每天早上,我都会收到一堆报纸,我必须仔细筛选以找到与选举相关的文章。一旦识别出这些文章,我就会扫描它们,上传到计算机,并根据正负情感谱进行分类。到夏季结束时,我已阅读并分类了超过3000篇文章。
整个过程花了几周时间,坦白说,并不是特别有趣。报酬也不高。
在学术研究中,设置数据库时涉及的这种重复性任务是很常见的。然而,自从我25年前的暑期工作以来,许多单调的任务已经实现了自动化。换句话说,被动数据收集在学术研究中变得越来越普遍。
被动数据收集是指在没有研究者或数据收集者显著直接或手动输入的情况下,自动收集信息的过程。与主动数据收集方法不同,后者涉及明确的行动——例如,进行访谈、分发调查或手动分类内容——被动数据收集利用在后台运行的自动化工具和技术来收集相关数据。
利用自动化进行被动数据收集
有许多工具已经存在一段时间,允许研究人员以更轻松的方式收集数据。您很可能已经在使用其中一些。例如,您可以订阅与您兴趣相关的新闻通讯,无论它们来自行业来源、学术社团还是专业分发列表。自动化提醒也发挥类似的作用,实时通知您相关内容。例如,谷歌提醒和Talkwalker提醒等工具在网上跟踪关键字,并在找到这些关键字的在线内容时向您发送电子邮件。您还可以在社交媒体上“关注”讨论与您的研究相关主题的人。网页抓取工具如Octoparse或WebHarvy提供了另一种通过自动提取网站信息来被动收集数据的方法。最后,您还可以为感兴趣的网站设置RSS源。像Feedly和Inoreader这样的工具让您将来自多个来源的更新合并为一个方便的源。
被动数据收集的好处与挑战
被动数据收集有许多优点。被动数据收集可以帮助您自动收集大量信息,这样您就可以专注于分析和解释数据。它保持您的更新一致——无论是每日、每周还是实时——因此您不会错过任何重要信息。此外,它具有高度的可扩展性,让您可以在最小的努力下扩展数据来源。由于自动化减少了人为错误的可能性,它也使您的数据更可靠。
然而,您在被动数据收集时可能面临的一个主要挑战是缺乏精确性和噪声的存在——如果您的工具设置不当,自动数据源可能会吸引大量不相关或多余的信息,导致您花费额外时间筛选无用的结果。此外,尽管这种方法可以帮助您构建数据集,但仍然需要额外的步骤——例如像我在上述暑期工作中那样对报纸文章进行分类——仍然是必要的。
在这里,新的代理生成人工智能(GAI)工具可能为研究过程带来新的好处。它们不仅高度可定制,而且还可以将研究工作流程的多个步骤集成到一个自动化流程中。我将通过指导您如何使用生成预训练变换器(GPT)任务设置您选择主题的每日新闻汇总来展示这一点。
用例:使用GPT任务自动化网络犯罪研究
两周前,开放AI推出了GPT任务,这是一项新功能,允许您在GPT中调度提示。一旦设置,GPT将在指定时间自动执行指定任务。
假设我想了解全球网络诈骗和勒索软件攻击的最近激增,其中许多来自东南亚。我不仅想要关于最新新闻的每日更新——我还想了解报告的诈骗类型及其报道方式,因为我对这些诈骗如何融入更广泛的网络犯罪格局感兴趣。由于我没有时间每天搜索互联网,我可以为GPT任务创建一个提示并安排其自动运行。为了撰写此提示,我使用了CO-STAR策略,详细说明请参见我的使用生成AI进行学术研究和写作的资源指南。
(C )ontext:
我是一名位于英国伦敦的分析师,正在进行关于网络诈骗和勒索软件攻击的研究。我对跟踪最近的案例、新兴策略、执法回应、监管变化以及对这些网络犯罪的更广泛讨论感兴趣。
(O)bjective:
进行每日网络搜索,以提供前一天的报纸剪辑和学术讨论的汇总。(这意味着如果任务在2025年2月12日触发,仅包括2025年2月11日发布的剪辑等)主题包括:
- 网络诈骗(杀猪盘诈骗、网络钓鱼、虚假投资机会、社会工程诈骗)。
- 勒索软件攻击(黑客加密数据并要求支付以释放的案件)。
每日新闻汇总应包括:
- 来自报纸、杂志和在线出版物的新闻文章。
- 讨论这些主题的学术期刊文章或书籍摘录。
- 如果可能,相关的法律裁决、政府报告、网络安全建议和关键利益相关者的声明。
- 对每篇文章的情感评估(例如,危言耸听、中立、轻视、倡导更强的监管等)。
(S)tyle:
以清晰、简洁和分析的风格撰写,类似于网络安全分析师或政策研究人员的风格。
(T)one:
事实性、中立和客观。避免耸人听闻,但突出关键趋势。
(A)udience:
响应旨在供我个人研究使用。假设我对网络犯罪和政策讨论有扎实的背景,因此不需要基本解释。
(R)esponse Format:
以以下格式呈现结果:
- 标题(标题或文章标题)
- 来源(报纸、期刊或网站名称)
- 日期(文章的发布日期)
- 摘要(文章的简要概述)
- 诈骗类型(浪漫诈骗、网络诈骗或勒索软件攻击)
- 情感(例如,危言耸听、中立、轻视、倡导更强的监管等)
- 链接(原始来源的URL)
我可以阅读英语、法语、德语、印尼语和西班牙语的来源。如果新闻剪辑是这些语言中的任何一种,请提供原语言的摘要。
如果新闻剪辑是其他语言,请提供英文摘要。
确保来源可信且权威(例如,主要报纸、网络安全公司、政府机构、学术出版物)。
交付时间表:
每天早上8点GMT向我发送更新。
撰写提示后,我将其输入到ChatGPT任务中,如下所示:
Source: Author
第二天早上8点GMT,我在电子邮件收件箱中收到了以下通知:
每日网络犯罪汇总:2025年2月12日
网络诈骗
标题: “Scam Inc评论——一个泰国小镇如何建立起来以诈骗孤独的西方人”
来源: 泰晤士报
日期: 2025年2月12日
摘要: _Scam Inc_是来自_经济学人_的播客,探讨现代诈骗的世界,涉及像堪萨斯银行家Shan Hanes这样的案例,他的职业生涯因加密诈骗而毁灭。它揭示了“杀猪盘”诈骗的运作方式,受
“当比特币诈骗者找上我时”
来源: 大西洋
日期: 2024年9月5日
摘要: 作者分享了个人经历,讲述了一个“猪肉劈杀”诈骗,他们被加入了一个声称是高净值投资者的WhatsApp群组,讨论比特币交易。该诈骗通过轻松的对话建立信任,然后试图诱骗受害者进行欺诈性的加密货币投资。文章强调了此类诈骗日益普遍,揭示美国人在2023年因网络投资诈骗损失了46亿美元。它还揭示了人贩子方面,个体被强迫在东南亚的劳工营中进行这些诈骗。
诈骗类型: 猪肉劈杀诈骗
情感: 倡导更严格的监管
链接: https://www.theatlantic.com/ideas/archive/2024/09/bitcoin-scams-lonely-americans/679700/
“加密货币、谎言与网络奴隶:东南亚诈骗中心的运作方式”
来源: 国家报
日期: 2025年1月12日
摘要: 这篇文章讲述了瑞典人丹尼尔如何成为与加密货币相关的爱情诈骗的受害者,揭露了一个庞大的犯罪网络在东南亚运作。利用约会应用和虚假的投资承诺,这些诈骗——被称为“猪肉劈杀”诈骗——在2020年至2024年间产生了700亿欧元。调查显示,这些诈骗中心由中国犯罪组织运营,涉及人贩子,强迫数千人从事剥削性劳动。文章包括了雷蒙德和安德鲁的证词,他们因虚假的工作机会而受骗,并在威胁和暴力下被迫工作。尽管执法干预和国际制裁,危机依然存在,导致该地区出现巨大的人道主义问题。
诈骗类型: 猪肉劈杀诈骗
情感: 危言耸听
链接: https://elpais.com/planeta-futuro/2025-01-12/criptomonedas-mentiras-y-ciberesclavos-asi-funcionan-los-centros-de-estafas-del-sudeste-de-asia.html
勒索软件攻击
“美国、英国、澳大利亚针对俄罗斯Zservers实施制裁,因其参与LockBit勒索软件攻击”
来源: 路透社
日期: 2025年2月11日
摘要: 在协调努力中,美国、英国和澳大利亚对俄罗斯的Zservers及两名俄罗斯公民实施了制裁,因其在支持LockBit勒索软件攻击中的角色。该行动强调勒索软件行为者对第三方网络服务提供商如Zservers的依赖,以便在国际上对关键基础设施进行攻击。
诈骗类型: 勒索软件攻击
情感: 倡导更严格的监管
链接: https://www.reuters.com/technology/cybersecurity/us-uk-australia-target-russia-based-zservers-over-lockbit-ransomware-attacks-2025-02-11/
回顾:代理生成人工智能工具如何转变被动数据收集
让我们简要回顾一下我上面所做的以及使用像生成预训练变换器任务这样的代理生成人工智能工具与传统被动数据收集方法的不同之处。
我建立了一个高度定制的新闻监控系统,使我能够以比传统被动数据收集技术更具针对性的方式收集信息。
生成预训练变换器任务还将研究过程的多个步骤简化为一个自动化工作流程。它不仅持续监测新闻领域中的高度特定主题,而且一旦识别出相关的文章,它会自动对讨论的网络诈骗类型进行分类,并进行情感分析——例如,确定文章是采取“危言耸听”还是“中立”的语气。
这与早期的被动数据收集工作形成了鲜明对比。回想一下我在苏黎世大学社会学系的暑期工作,我在文章开头提到过。那时,我必须手动筛选整个报纸,以识别与选举相关的文章。之后,我还必须在一个单独的步骤中对每篇文章的情感进行分类。使用生成预训练变换器任务,这些步骤现在集成到一个自动化的流程中。
如果我愿意,我可以在生成预训练变换器任务中进一步定制我的提示并添加额外的步骤——所有这些都在同一个工作流程中。例如,我可以指定一个网站列表供生成预训练变换器任务监控(例如,纽约时报、埃尔佩里斯、乐天、Kompas),并指示它在每天结束时将每日新闻汇总编译到Excel表格中。生成预训练变换器任务随后会在其响应中生成指向Excel文件的链接。
此外,我可以请求情感分析的可视化,例如显示被分类为危言耸听、中立等文章比例的饼图。生成预训练变换器任务随后会直接在生成预训练变换器中生成并显示该图表。
对使用生成预训练变换器任务的反思和关键考虑
在过去几天进行新闻监控任务时,我观察到生成预训练变换器任务没有产生幻觉。所有提供的链接都指向实际的报纸文章,摘要准确地反映了其内容,包括情感分析。此外,验证信息的过程快速而简单——只需点击提供的链接即可直接交叉检查文章。
然而,我确实注意到一个反复出现的问题:生成预训练变换器任务偶尔会在每日汇总中包含超出指定日期范围的文章,尽管我已明确指示。例如,在2025年2月12日的新闻汇总中,它列出了一篇发表于2024年9月5日的《大西洋》文章,而不是2025年2月11日。
有效设置生成预训练变换器任务的关键考虑
如果您计划为被动数据收集设置一个代理生成人工智能代理,请牢记以下几个重要因素:
- 订阅要求:生成预训练变换器任务目前仅对生成预训练变换器 Plus 和 Pro 订阅者开放,而不适用于免费计划的用户。我尝试在Claude和Gemini的免费版本中安排任务。虽然有时可以工作,但它们的结果似乎不如生成预训练变换器任务可靠。
- 模型选择:在生成预训练变换器任务中,您必须选择“GPT-4o with scheduled tasks”作为模型。定时任务无法与其他模型一起使用。
- 调度精确性:在给定特定执行时间时,任务运行更可靠。请使用“每天早上8点(GMT)提供更新”来替代“每天提供我一次更新”。
- 提示一致性:最初,生成预训练变换器任务没有使用我的原始CO-STAR提示。当我点击“编辑任务”时,“指令”框中包含的是浓缩的摘要,而不是我的完整提示,导致结果不够准确。为了确保一致性,我在设置任务后手动将我的原始提示复制到“指令”框中,如下所示:
来源:作者
确保被动数据收集中的数据质量:关键考虑
无论您是使用传统方法还是代理生成人工智能工具进行被动数据收集,都必须注意数据质量。如果您的自动化工具配置不当,可能会引入偏见、不准确或低质量的来源,从而增加错误信息的风险。验证您的来源对于降低此风险至关重要。此外,无论采用何种方法,被动数据收集并不总是能够捕捉到上下文,这意味着您可能会错过更积极的研究方法(如访谈或调查)所能提供的重要细微差别。
最终,您应该将被动数据收集作为研究项目中的众多方法之一。通过将其与其他技术(如定性访谈、调查和档案研究)结合使用,您可以确保对主题有更全面和可靠的理解。
LLM使用声明
根据日益增长的共识,即在学术研究和写作中使用代理生成人工智能工具是可以的,只要声明,以下是我的LLM使用声明:
我自己撰写了这篇文章,并对其准确性进行了彻底审核。我对这项工作的完整性承担全部责任。我仅使用生成性人工智能来编辑语法和语法,并生成参考列表。
参考文献
Buehler, Michael. 2024. “如何应对生成性人工智能的兴起及其在学术写作中的剽窃政治:道德使用代理生成人工智能工具的实用技巧。” 生成性人工智能,2024年12月2日。 https://generativeai.pub/how-to-navigate-the-rise-of-generative-ai-and-the-politics-of-plagiarism-in-academic-knowledge-8053bb55f5a9。
— — — . “如何在学术研究和写作中使用生成性人工智能:学生资源指南。” Academia.edu。访问日期:2025年2月13日。 https://soas-uk.academia.edu/MichaelBuehler/Teaching-Documents。
Doctorow, Cory. 2024. “Pluralistic: 你应该使用RSS阅读器。” Pluralistic,2024年10月16日。 https://pluralistic.net/2024/10/16/keep-it-really-simple-stupid/#read-receipts-are-you-kidding-me-seriously-fuck-that-noise。
Lowrey, Annie. 2024. “当比特币诈骗者找上我时:孤独的美国人渴望陪伴,渴求金钱。” 大西洋,2024年9月。 https://www.theatlantic.com/ideas/archive/2024/09/bitcoin-scams-lonely-americans/679700/。
Marriott, James. 2025. “诈骗公司评论——一个泰国小镇是如何建立起来诈骗孤独的西方人的。” 泰晤士报,2025年2月13日。 https://www.thetimes.com/culture/tv-radio/article/scam-inc-review-how-a-whole-thai-town-was-built-to-scam-lonely-westerners-rgcrfbmbp?region=global。
Reuters. 2025. “美国、英国、澳大利亚针对俄罗斯基于Zservers的Lockbit勒索软件攻击。” 路透社,2025年2月11日。 https://www.reuters.com/technology/cybersecurity/us-uk-australia-target-russia-based-zservers-over-lockbit-ransomware-attacks-2025-02-11/。
Wester, Torbjörn. 2025. “加密货币、谎言与网络奴隶:东南亚诈骗中心的运作方式。” 国家报,2025年1月12日。 https://elpais.com/planeta-futuro/2025-01-12/criptomonedas-mentiras-y-ciberesclavos-asi-funcionan-los-centros-de-estafas-del-sudeste-de-asia.html。