使用 LLM 执行分析查询

实用方法：使用 LLM 进行数据探索与分析

考虑以下场景。您有一个包含 500 万行和 20 列的 CSV 文件。该 CSV 文件包含客户的交易记录，例如销售日期、单价、数量、客户姓名、地址等。基于这些数据，您希望 LLM 能帮助回答以下问题：

客户 A 在某一天购买了什么？
某个月的总销售额是多少？
列出某一年每个月的销售额。

LLM的局限性

如果你尝试使用LLM回答这些问题，你会很快意识到它无法提供准确或可靠的答案。为什么会这样呢？

大多数LLM的上下文窗口大小有限，这限制了它们在一次交互中可以处理的数据量。数据集的大小（500万行）远远超过了这个限制，使得一次性将整个CSV文件输入LLM变得不可行。没有访问整个数据集的能力，LLM无法有效地执行分析查询。
此外，LLM是基于静态文本数据进行训练的，缺乏对外部结构化数据集的实时访问能力。它们没有原生与大规模表格数据交互或处理的能力。此外，LLM依赖于概率推理并生成近似响应，而不是执行精确计算，这对于计算销售总额或汇总数据等任务至关重要。这些局限性使得LLM不适合直接处理来自大型数据集的分析查询。

除了上下文窗口大小有限之外，将数据发送到大型语言模型（LLM）的另一个关键问题是隐私。当使用由第三方托管的LLM时，例如OpenAI、Claude或DeepSeek，组织特别担心敏感或机密信息的潜在泄露。法律约束，例如遵守GDPR、HIPAA和其他地区数据保护法，进一步复杂化了情况。这些法规要求对个人和组织数据的存储、处理和共享进行严格控制。

例如，发送到外部LLM提供商的数据可能会被记录以用于质量改进、训练或调试目的。即使这些日志被匿名化，仍然存在敏感信息可能被意外暴露或滥用的风险。此外，缺乏关于第三方提供商如何处理、存储和删除数据的透明度，可能会引发对问责制的质疑，尤其是在医疗、金融或法律服务等高风险行业。
此外，一些组织担心数据泄露或反向工程的可能性。如果将专有信息输入到LLM中，则存在该数据的某些方面可能被模型“记住”，并无意中包含在未来的响应中，无论是对同一用户还是其他用户。
此外，公司可能担心LLM可能被恶意利用，例如通过精心设计的提示提取商业秘密或机密商业策略。

应对挑战

鉴于这些挑战，您如何有效地解决使用 LLM 进行分析查询的困难？一种方法是使用提示工程来引导 LLM 生成检索或处理必要数据的代码。通过将其与 SQL、pandas 或检索增强生成 (RAG) 等补充工具结合使用，您可以确保在 LLM 使用之前，数据得到妥善处理。这种组合利用了结构化数据处理的优势以及 LLM 理解和生成自然语言和代码的能力，从而最终提高分析洞察的准确性和相关性。

解决方案

使用LLM执行分析查询的关键步骤，以提示工程为核心组成部分，如下图所示：

步骤 1 — 用户提出与数据集相关的问题，例如：“客户A在2023年1月花费了多少？”
步骤 2 — 一个提示被发送给LLM。提示中并没有嵌入整个数据集，而是包含了数据集架构的详细描述。这可以是数据库表的结构，或者仅仅是CSV文件的头部，具体取决于数据的格式。架构应该尽可能全面。使用清晰、描述性的列名将提高LLM理解问题和生成有意义响应的能力。包含数据示例也可以帮助模型理解数据类型和数据集内的关系。
步骤 3 — LLM根据架构分析用户的查询并制定响应。LLM不会直接计算结果，而是返回可执行的代码——例如SQL查询或Python代码——您可以在数据集上运行这些代码以检索所需的信息。
步骤 4 — 您使用LLM提供的代码在数据集或数据库上运行以计算结果。
步骤 5 — 最后，代码的输出返回给用户，提供请求的答案。

上述方法提供了几个关键优势：

数据隐私：实际数据从未与LLM共享。仅传递数据集的架构，确保敏感或专有信息保持安全。这使得该方法特别适合关注数据泄露或隐私侵犯的企业。
优化的提示大小：由于不需要在提示中嵌入大型数据集，因此提示大小保持小且高效。这有助于最小化计算负载，降低使用商业LLM时的成本，尤其是那些根据令牌使用量收费的LLM。
LLM选择的灵活性：您可以选择与商业LLM提供商合作，或运行自己的本地LLM。随着LLM能力的进步，部署和维护自己的LLM基础设施变得越来越可行。这使您对成本和性能有更多控制，特别是在您有特殊数据需求或希望将所有内容保留在内部时。

这些好处使得该方法不仅关注隐私，而且具有成本效益和可扩展性，这对拥有敏感数据或大规模运营的企业至关重要。

我们的 Python 示例

现在您已经理解了 LLM 的限制以及如何利用它根据自己的数据集执行分析查询，让我们构建一个示例应用程序，以了解它如何实现。

在这个示例中，我们将使用泰坦尼克号数据集，这是一个在机器学习教程和练习中常用的著名数据集。我们的目标是利用 LLM 帮助我们更好地理解这个数据集。您将能够用简单的英语提问，LLM 将生成您可以运行的 Python 代码，以分析数据、提取洞见并执行各种类型的分析。无论您是想探索生存率、识别模式还是进行预测，LLM 都会通过生成执行这些任务所需的代码来有效地指导您。

LLMs

在这个例子中，我们将使用两种不同的 LLM：

OpenAI：我们将使用 OpenAI 的 gpt-4o-mini 模型。这是一个付费模型，因此您需要在 OpenAI 注册并生成一个 API 密钥以进行访问。
LM Studio：LM Studio 允许您在本地机器上运行 LLM。在本文中，我们将使用 meta-llama-3.1–8b-instruct 模型，您可以直接在计算机上下载并使用 LM Studio 运行它。这提供了在不依赖外部 API 的情况下运行模型的灵活性，同时仍然提供强大的功能。

通过使用这两种模型，您将比较基于云的 LLM 和本地 LLM 在分析泰坦尼克号数据集方面的表现。无论您选择使用 OpenAI 还是 LM Studio，这两种选项都提供了一种有效的方法，通过自然语言处理查询和理解数据。

如果您是 LM Studio 的新手，请参考我之前的文章，了解如何通过 API 暴露模型：

创建笔记本

在这个例子中，我将使用 Jupyter Notebook。

添加 OpenAI API 密钥

首先，将您的 OpenAI API 密钥保存到环境变量中：

import os

os.environ['OPENAI_API_KEY'] = "OpenAI_API_KEY"

创建 LLM 提供者字典

安装 OpenAI 包：

!pip install openai

由于 LM Studio API 也使用 OpenAI 类，您可以设置两个独立的 OpenAI 类实例——一个用于与 OpenAI 的 API 交互，另一个用于在本地使用 LM Studio。为了有效管理这些实例，您可以创建一个字典来存储它们，使得根据需要在这两个模型之间切换更加方便：

import os
from openai import OpenAI

## connects to OpenAI
client_openai = OpenAI(
    api_key = os.environ.get("OPENAI_API_KEY"),
)

## connects to LM Studio API
client_lmstudio = OpenAI(
    base_url = "http://localhost:1234/v1"
)

## create a dictionary with the model name as the key and the value as the 
## OpenAI instance
clients = {
    "gpt-4o-mini": client_openai,
    "meta-llama-3.1-8b-instruct": client_lmstudio
}

创建提示并获取响应

下一步是最关键的——将提示发送给LLMs并获取响应：

import re
import pandas as pd

## load the CSV file as a Pandas DataFrame
df = pd.read_csv('Titanic_train.csv')

while True:
    messages = []
    messages.append(
    {
        'role':'user',
        'content':'''
            Here is the schema of my data:
            PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked            
            Note that for Survived, 0 means dead, 1 means alive
            Return the answer in Python code only.
            For your info, I have already loaded the CSV file into a dataframe named df.
        '''
    })

    prompt = input('\nAsk a question: ') 
    if prompt == "quit":
        break
        
    messages.append(
    {
        'role':'user',
        'content':prompt
    })

    # send the question to all the LLMs
    for client_name, client in clients.items():
        completion = client.chat.completions.create(
            model =  client_name,
            messages = messages,
            max_tokens = 1024,
            temperature = 0)

        print(f"Code generated by {client_name}")    
        response = completion.choices[0].message.content    
        print(response)

我已经将Titanic_train.csv文件加载到一个Pandas DataFrame中。现在，我需要LLM生成可以在该DataFrame上执行的Python代码。

当你运行这个代码片段时，你将被要求输入一个问题：

让我们输入问题“绘制乘客按登船港口的分布”。两个LLM将响应如下：

Code generated by gpt-4o-mini
```python
import matplotlib.pyplot as plt
import seaborn as sns

## 设置seaborn的样式
sns.set(style="whitegrid")

## 计算各登船港口的乘客数量
embarked_counts = df['Embarked'].value_counts()

## 创建条形图
plt.figure(figsize=(8, 5))
sns.barplot(x=embarked_counts.index, y=embarked_counts.values, palette='viridis')

## 添加标题和标签
plt.title('乘客按登船港口分布')
plt.xlabel('登船港口')
plt.ylabel('乘客数量')

## 显示图形
plt.show()

Code generated by meta-llama-3.1-8b-instruct

import matplotlib.pyplot as plt

## 绘制按登船港口分布的乘客数量
plt.figure(figsize=(10,6))
df['Embarked'].value_counts().plot(kind='bar')
plt.title('按登船港口分布的乘客数量')
plt.xlabel('港口')
plt.ylabel('数量')
plt.show()

这段代码将创建一个柱状图，显示按登船港口分布的乘客数量。value_counts()函数用于计算’Embarked’列中每个唯一值的出现次数，然后我们将这些计数绘制为柱状图。

第一段代码（用一对反引号包围）来自于*gpt\-4o\-mini*，而第二段代码来自于*meta\-llama\-3\.1–8b\-instruct*。如果您的计算机处理能力有限，本地运行*meta\-llama\-3\.1–8b\-instruct*可能会略显缓慢。


### 提取并执行响应

在手中拥有LLM的响应后，下一步是执行它们。为此，您可以使用正则表达式提取Python代码，然后使用`exec()`或`eval()`函数执行它。以下代码展示了如何提取返回的Python代码并执行它：


```python
import re
import pandas as pd

## 加载CSV文件作为Pandas DataFrame
df = pd.read_csv('Titanic_train.csv')

while True:
    messages = []
    messages.append(
    {
        'role':'user',
        'content':'''
            Here is the schema of my data:
            PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked            
            Note that for Survived, 0 means dead, 1 means alive
            Return the answer in Python code only.
            For your info, I have already loaded the CSV file into a dataframe named df.
        '''
    })

    prompt = input('\nAsk a question: ') 
    if prompt == "quit":
        break
        
    messages.append(
    {
        'role':'user',
        'content':prompt
    })

    # send the question to all the LLMs
    for client_name, client in clients.items():
        completion = client.chat.completions.create(
            model =  client_name,
            messages = messages,
            max_tokens = 1024,
            temperature = 0)

        print(f"Code generated by {client_name}")
        response = completion.choices[0].message.content    
        print(response)

        #===提取响应中的Python代码===
        pattern = re.compile(r'```python\s*([\s\S]*)\n```')
        match = pattern.search(response)
    
        #===执行Python代码===
        if match:
            extracted_content = match.group(1)
            if extracted_content.count('\n') > 1:
                exec(extracted_content)           # 多行响应    
            else:              
                display(eval(extracted_content))  # 单行响应       
        else:
            print("No content found within ```python...```.")