Type something to search...
提升数据工程效率:使用generative Ai进行实体识别与提取的实用指南 - 第3部分

提升数据工程效率:使用generative Ai进行实体识别与提取的实用指南 - 第3部分

实体识别

实体识别,也称为 命名实体识别 (NER),是一种自然语言处理 (NLP) 技术,用于识别和分类文本中的关键信息。这些实体可以包括 人、组织、地点、日期、产品等

传统的 NLP 模型长期以来一直用于实体识别,帮助从非结构化文本中提取结构化信息,使得分析大型数据集变得更加容易。然而,生成式人工智能进一步推动了这一概念,允许以更大的灵活性、适应性和最小的设置进行实体提取。

为什么使用生成式人工智能进行实体识别?

  • 无需预定义规则: 传统的命名实体识别(NER)模型需要使用大量标记数据集进行预训练,而生成式人工智能可以动态识别实体。
  • 上下文意识: 生成式人工智能可以理解文本的上下文,确保更好地识别实体,即使它们以不同格式出现。
  • 易于实现: 只需几行代码,使用大型语言模型(LLMs)如生成预训练变换器(GPT),而无需开发和微调自然语言处理(NLP)管道。
  • 处理各种文本格式: 无论是新闻文章、社交媒体帖子、合同还是评论,生成式人工智能都可以高精度地提取相关实体。

让我们探索如何使用GPT-4o通过几个应用程序接口(API)调用来执行命名实体识别。

示例 1:基本实体识别

在这个例子中,我们分析一个简单的句子并提取 人名、地点、日期和组织

import openai
import pandas as pd
import json
import numpy as np
from pprint import pprint

openai.api_key ='your-api-key'

def clean(dict_variable):
    return next(iter(dict_variable.values()))

text = "John Snow visited Red Castle on January 4, 2025, and met with the King of Westeros."

response = openai.ChatCompletion.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "You are an AI assistant skilled in entity recognition."},
        {"role": "user", "content": f"Identify and categorize the named entities in the following text. Output in JSON form: {text}"}
    ],
    response_format={"type": "json_object"}
)

print(response.choices[0].message.content)

Image 2

输出

示例 2:新闻文章中的实体识别

一个更复杂的例子,我们从新闻文章中提取关键实体,如组织、地点、人物和日期

news_article = """
On September 15, 2024, Apple Inc. unveiled its latest iPhone models at its headquarters in Cupertino, California. 
CEO Tim Cook presented the new devices, highlighting their advanced features. The event was attended by tech journalists from various publications, including The New York Times and TechCrunch.
"""
response = openai.ChatCompletion.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "You are an AI assistant skilled in entity recognition."},
        {"role": "user", "content": f"Extract and categorize all named entities from this news article. Include categories such as PERSON, ORGANIZATION, DATE, LOCATION, and PRODUCT. Output in JSON form: {news_article}"}
    ],
    response_format={"type": "json_object"}
)

print(response.choices[0].message.content)

输出

示例 3:社交媒体帖子中的实体识别

这对分析社交媒体趋势、提取标签、地点、用户名和地标特别有用。

social_media_post = """
刚到达 #NewYork! 😍 迫不及待想去时代广场和自由女神像。
明天将与 @SaiParvathaneni 见面,进行一次河流游船。
有没有推荐在第五大道附近最好的咖啡馆? #旅行博客 #纽约冒险
"""
response = openai.ChatCompletion.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "您是一位擅长实体识别的人工智能助手,特别是在社交媒体上下文中。"},
        {"role": "user", "content": f"识别并分类此社交媒体帖子中的实体,包括地点、地标、用户名和标签。以 JSON 形式输出:{social_media_post}"}
    ],
    response_format={"type": "json_object"}
)

print(response.choices[0].message.content)

输出

结论

命名实体识别 (NER) 使用 生成式人工智能 提供了一种 快速、灵活和可扩展 的方式,从非结构化文本中提取结构化信息。与传统的自然语言处理方法不同,大型语言模型 (LLMs) 动态适应,消除了手动编码规则算法的需求。

主要好处:

  • 准确的实体提取: 自动识别和分类各种实体。
  • 适用于不同文本类型: 社交媒体、新闻文章、合同、评论等。
  • 减少时间和复杂性: 无需开发自定义的自然语言处理模型或预处理管道。
  • 可扩展和适应性强: 轻松处理变化的文本结构。

只需几行代码,数据工程师和分析师就可以利用生成式人工智能驱动的命名实体识别进行各种应用,如数据标注、社交媒体分析、自动报告和内容组织。

感谢阅读!

如果你喜欢我的工作并想支持我…

  1. 支持我的最佳方式是在 Medium 上关注我。
  2. 我分享关于 #dataengineering 的内容。让我们在 LinkedIn 上联系。
  3. 随意点赞,这样我就知道这篇文章对你有多大帮助。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...