Type something to search...
有了这个简单的小窍门,我的 GPT 评估器的性能提高了 1000%。

有了这个简单的小窍门,我的 GPT 评估器的性能提高了 1000%。

我希望我早就知道这个技巧。

我的所有文章都是免费阅读的。非会员可以通过点击此链接免费阅读。

去年夏天,我在Adobe Research实习。项目开始几周后,我陷入了困境。

我似乎永远无法让项目正常运作,因为缺少一个我无法解决的关键细节:

一个有效的评估器。

评估是根据一些预定义标准评估模型性能的过程*.*

在我的具体项目中,我需要评估LLM的输出是否忠实于上下文。

一种简单的方法是检查真实答案是否在模型的输出中。例如,如果真实答案是“Apple”,这可以是条件:

但这并不总是有效,就像我们上面看到的例子一样。输出包含“Apple”这个词,但整体答案并不忠实于上下文。

通常,在这种情况下,大多数人会转向一种方法:GPT-评估。

我之前写过另一篇博客,讨论了我为什么认为GPT-评估被高估,并且往往不起作用:

尽管如此,我意识到某种形式的GPT-评估可能是评估我的开放式生成所必需的。

FYI: 开放式生成只是LLM的长格式生成,而不是单个标记或单个单词的预测。

我没想到我的GPT-评估器在一开始就无法正常工作。

一个简单的解决方案(我的第一个方法)

首先,我尝试实现一个 GPT-evaluator,它的输入是上下文、问题和模型的输出。这是我输入到 GPT-4 的可视化表示。

实际上,我们使用上下文、问题和模型输出,将它们整合成一个提示,然后传递给 GPT-4,以判断模型是否忠实于上下文。

回想起来,我觉得自己很天真,因为我原本以为这会是如此简单。当我实际在大约 100 个示例输出上尝试时,我查看了模型给出的分数,发现它几乎总是给出了错误的分数。

评分如此糟糕,以至于我决定每次尝试实验时都手动评估所有 100 个示例。

不过,最终我们决定将示例数量增加到接近 1000,以确保我们的准确性评分在统计上是显著的。此时,对于每个实验进行手动评估几乎是不可能的。

我以为项目会到此为止,因为评估如此困难,现有的库(如 DeepEval)或方法都无法奏效。

但我接下来尝试的解决了这个问题。评估几乎达到了 100% 的准确率。

有效的方法

  1. 我创建了一个 few-shot prompt,并提供了多个示例。
  2. 我提供了 ground truth answer 以及提示。

少量示例提示

少量示例提示 在一些论文中被称为“上下文学习”(In-Context Learning,ICL)。以下是该术语的自解释定义:

少量示例提示 是一种在提示中使用少量示例的技术,指导LLM执行特定任务。

我给你一个简单的例子。

假设我们希望GPT输出1,如果给定的句子是“快乐”,而输出0如果句子是“悲伤”。这是一个有效的少量示例提示,可以输入到GPT-4中以实现该目标:

在我的具体案例中,我提供了大约10个上下文-问题-输出三元组,以及每个三元组的预期评估分数(0或1)。

在创建少量示例提示后,模型开始表现得更好。我本打算就此停止,但随后我意识到我错过了一些非常明显的东西。

提供真实答案

我使用的数据集也提供了真实答案。在我们之前展示的例子中,真实答案是“Apple”。

不知怎么的,在这样做之后,我最终得到了基本上所有输出分数都与我预期的一致。

虽然这看起来微不足道,但并非如此——一些不忠实的例子在输出中某处包含了真实答案的单词,但GPT仍然能够推断出措辞并不忠实。

结论建议

以下是我从这次探索中学到的一些事情:

  • GPT评估有局限性。 它们确实并不总是有效,可能需要一些实验来找到适合您特定用例的方法。
  • 少量示例提示帮助很大。 通过提供多个多样化的示例,可以显著提高GPT的最终评分的准确性。
  • 提供尽可能多的信息。 您提供的信息越多,GPT进行评估就越容易。在我们的案例中,我们恰好有真实答案,这使得GPT的评估更为简单。

GPT在问题模糊的情况下表现往往较差。例如,要求它在1到10的范围内对段落的流畅性进行评分是困难的。它不知道如何同时考虑多个因素给出一个在所见示例中一致的数字评分

总体而言,将GPT视为一个人似乎是有帮助的。考虑一下它可能会发现哪些信息有用,以帮助它尽快找出分数。

致谢

所有图表均由我在 Canva 上制作。

关注我: LinkedIn | X (Twitter) | 网站

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多