Type something to search...
6 种最佳本地运行模型的 LLM 工具

6 种最佳本地运行模型的 LLM 工具

运行大型语言模型(LLMs)如 ChatGPTClaude 通常涉及将数据发送到由 OpenAI 和其他 AI 模型提供商管理的服务器。虽然这些服务是安全的,但一些企业更倾向于将其数据完全离线,以获得更高的隐私保护。

本文将介绍开发人员可以使用的六款工具,以便在本地运行和测试 LLM,确保他们的数据永远不会离开他们的设备,这类似于 端到端加密 保护隐私的方式。

为什么使用本地 LLM?

LM Studio 这样的工具在用户使用它来运行本地 LLM 时,不会收集用户数据或跟踪用户的行为。它允许所有聊天数据保留在本地计算机上,而不与 AI/ML 服务器共享。

  • 隐私:您可以以多轮的方式提示本地 LLM,而不会让您的提示数据离开本地主机。
  • 自定义选项:本地 LLM 提供 CPU 线程、温度、上下文长度、GPU 设置等高级配置选项。这类似于 OpenAI 的游乐场。
  • 支持和安全性:它们提供与 OpenAI 或 Claude 相似的支持和安全性。
  • 订阅和费用:这些工具免费使用,并且不需要每月订阅。对于像 OpenAI 这样的云服务,每个 API 请求都需要付费。本地 LLM 有助于节省费用,因为没有每月订阅。
  • 离线支持:您可以在离线时加载和连接大型语言模型。
  • 连接性:有时,连接到像 OpenAI 这样的云服务可能会导致信号和连接不良。

六大免费本地 LLM 工具

根据您的具体使用案例,您可以选择几种离线 LLM 应用程序。这些工具中有一些完全免费供个人和商业使用。其他工具可能需要您发送请求以用于商业用途。对于 Mac、Windows 和 Linux,有多种本地 LLM 工具可供选择。以下是您可以选择的六个最佳工具。

1. LM Studio

LM Studio 可以运行任何格式为 gguf 的模型文件。它支持来自模型提供商的 gguf 文件,如 Llama 3.1Phi 3MistralGemma。要使用 LM Studio,请访问上述链接并下载适合您机器的应用程序。启动 LM Studio 后,主页会展示可下载和测试的顶级 LLM。还有一个搜索栏,可以筛选并下载来自不同 AI 提供商的特定模型。

从特定公司的模型中搜索会显示多个模型,范围从小型到大型 quantization。根据您的机器,LM Studio 会使用兼容性猜测来突出显示适合该机器或平台的模型。

LM Studio 的关键特性

LM Studio 提供与 ChatGPT 相似的功能和特性。它具有多个功能。以下是 LM Studio 的关键特性。

  • 模型参数自定义:这允许您调整温度、最大令牌、频率惩罚等。
  • 聊天历史:允许您保存提示以供后续使用。
  • 参数和用户界面提示:您可以将鼠标悬停在信息按钮上以查找模型参数和术语。
  • 跨平台:LM Studio 可在 Linux、Mac 和 Windows 操作系统上使用。
  • 机器规格检查:LM Studio 检查计算机规格,如 GPU 和内存,并报告兼容的模型。这可以防止下载可能在特定机器上无法运行的模型。
  • AI 聊天和游乐场:以多轮聊天格式与大型语言模型进行对话,并通过同时加载多个 LLM 进行实验。
  • 开发者本地推理服务器:允许开发者设置一个类似于 OpenAI API 的本地 HTTP 服务器。

本地服务器提供示例 Curl 和 Python 客户端请求。此功能有助于使用 LM Studio 构建 AI 应用程序,以访问特定的 LLM。

## Example: reuse your existing OpenAI setup
from openai import OpenAI

## Point to the local server
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

completion = client.chat.completions.create(
  model="TheBloke/Mistral-7B-Instruct-v0.1-GGUF",
  messages=[
    {"role": "system", "content": "Always answer in rhymes."},
    {"role": "user", "content": "Introduce yourself."}
  ],
  temperature=0.7,
)

print(completion.choices[0].message)

通过上述示例 Python 代码,您可以重用现有的 OpenAI 配置,并将基本 URL 修改为指向您的本地主机。

  • OpenAI 的 Python 库导入:LM Studio 允许开发者导入 OpenAI Python 库,并将基本 URL 指向本地服务器(localhost)。
  • 多模型会话:使用单个提示并选择多个模型进行评估。

使用 LM Studio 的好处

该工具可供个人免费使用,允许开发者通过应用内聊天用户界面和游乐场运行 LLM。它提供了一个华丽且易于使用的界面,带有过滤器,并支持连接到 OpenAI 的 Python 库,无需 API 密钥。公司和企业可以根据要求使用 LM Studio。然而,它需要 M1/M2/M3 Mac 或更高版本,或具有支持 AVX2 的处理器的 Windows PC。Intel 和 AMD 用户仅限于使用 v0.2.31 中的 Vulkan 推理引擎。

2. Jan

Jan 理解为一个设计用于离线操作的开源版本的 ChatGPT。它由一个用户社区构建,秉持用户拥有的理念。Jan 允许您在设备上运行流行的模型,如 MistralLlama,而无需连接互联网。使用 Jan,您可以访问远程 API,如 OpenAI 和 Groq

Jan 的主要特点

Jan 是一款电子应用程序,其功能类似于 LM Studio。它通过将消费者设备转变为 AI 计算机,使 AI 变得开放和可访问。由于这是一个开源项目,开发者可以为其贡献代码并扩展其功能。以下是 Jan 的主要特点。

  • 本地:您可以在设备上运行您喜欢的 AI 模型,而无需将其连接到互联网。
  • 即用模型:下载 Jan 后,您将获得一组已安装的模型以供开始使用。也可以搜索特定模型。
  • 模型导入:支持从 Hugging Face 等来源导入模型。
  • 免费、跨平台和开源:Jan 完全免费,开源,并可在 Mac、Windows 和 Linux 上运行。
  • 自定义推理参数:调整模型参数,如最大令牌、温度、流、频率惩罚等。所有偏好设置、模型使用和配置都保留在您的计算机上。
  • 扩展:Jan 支持 TensortRTInference Nitro 等扩展,以自定义和增强您的 AI 模型。

使用 Jan 的好处

Jan 提供了一个干净简单的界面来与 LLM 互动,并且将所有数据和处理信息保存在本地。它已经为您安装了超过七十个大型语言模型供您使用。这些现成的模型的可用性使得连接和与远程 API(如 OpenAI 和 Mistral)互动变得简单。Jan 还有一个很棒的 GitHubDiscordHugging Face 社区,可以关注并寻求帮助。然而,像所有 LLM 工具一样,这些模型在 Apple Silicon Macs 上的运行速度比在 Intel 机器上更快。

3. Llamafile

LlamafileMozilla 支持,旨在通过快速的 CPU 推理 使开源 AI 对每个人都可访问,而无需网络连接。它将 LLM 转换为多平台的 可执行链接格式 (ELF)。它提供了将 AI 集成 到应用程序中的最佳选项之一,使您能够仅通过一个可执行文件运行 LLM。

Llamafile 的工作原理

它旨在将权重转换为多个可执行程序,这些程序无需安装即可在 Windows、MacOS、Linux、Intel、ARM、FreeBSD 等架构上运行。在底层,Llamafile 使用 tinyBLAST 在像 Windows 这样的操作系统上运行,而无需 SDK。

Llamafile 的关键特性

  • 可执行文件:与 LM Studio 和 Jan 等其他 LLM 工具不同,Llamafile 只需一个可执行文件即可运行 LLM。
  • 使用现有模型:Llamafile 支持使用现有的模型工具,如 Ollama 和 LM Studio。
  • 访问或创建模型:您可以访问 OpenAI、Mistral、Groq 等流行 LLM。它还提供从头创建模型的支持。
  • 模型文件转换:您可以将许多流行 LLM 的文件格式转换,例如,将 .gguf 转换为 .llamafile 只需一个命令。

llamafile-convert mistral-7b.gguf

开始使用 Llamafile

要安装 Llamafile,请访问 Huggingface 网站,从导航中选择 Models,然后搜索 Llamafile。您还可以从下面的 URL 安装您喜欢的 量化 版本。

https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/tree/main

注意:量化数字越大,响应越好。正如上图所示,本文使用 Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile,其中 Q6 代表量化数字。

步骤 1:下载 Llamafile

从上面的链接,点击任意下载按钮以获取您喜欢的版本。如果您在机器上安装了 wget 工具,您可以使用以下命令下载 Llamafile。

wget <https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/blob/main/Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile>

您应该用您喜欢的版本替换 URL。

步骤 2:使 Llamafile 可执行

下载特定版本的 Llamafile 后,您应该通过导航到文件位置,使用以下命令使其可执行。

chmod +x Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile步骤 3:运行 Llamafile

在文件名之前添加一个点和斜杠 ./ 来启动 Llamafile。

./Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile

Llamafile 应用程序现在将在 http://127.0.0.1:8080 可用,以运行您的各种 LLMs。

使用 Llamafile 的好处

Llamafile 通过使 LLM 容易被消费者 CPU 访问,帮助实现 AI 和 ML 的民主化。与其他本地 LLM 应用程序如 Llama.cpp 相比,Llamafile 提供了最快的提示处理体验,并在游戏电脑上表现更佳。由于其更快的性能,它是总结长文本和大型文档的绝佳选择。它完全离线运行并保护隐私,因此用户不会将数据分享给任何 AI 服务器或 API。像 Hugging Face 这样的机器学习社区支持 Llamafile 格式,使得搜索与 Llamafile 相关的模型变得容易。它还有一个出色的开源社区,进一步开发和扩展它。

4. GPT4ALL

GPT4ALL 基于隐私、安全和无需互联网的原则构建。用户可以在 Mac、Windows 和 Ubuntu 上 安装。与 Jan 或 LM Studio 相比,GPT4ALL 拥有更多的每月下载量、GitHub Stars 和活跃用户。

GPT4ALL的主要特点

GPT4All可以在主要消费硬件上运行LLM,例如Mac M系列芯片、AMD和NVIDIA GPU。以下是其主要特点。

  • 隐私优先:将私人和敏感的聊天信息和提示仅保留在您的设备上。
  • 无需互联网:它完全离线工作。
  • 模型探索:此功能允许开发者浏览和下载不同类型的LLM进行实验。您可以从流行选项中选择大约1000个开源语言模型,如LLama、Mistral等。
  • 本地文档:您可以让本地LLM访问您的敏感数据,使用本地文档如.pdf.txt,数据不会离开您的设备,也无需网络。
  • 自定义选项:它提供多个聊天机器人调整选项,如温度、批处理大小、上下文长度等。
  • 企业版:GPT4ALL提供企业套餐,具备安全性、支持和每台设备的许可证,将本地AI带入企业。

开始使用 GPT4All

要开始使用 GPT4All 在本地运行 LLMs,请下载适合您操作系统的版本。

使用GPT4ALL的好处

除了Ollama,GPT4ALL在GitHub贡献者数量上最为显著,拥有约250000名每月活跃用户(根据https://www.nomic.ai/gpt4all)并且与其竞争对手相比。该应用收集有关使用分析和聊天分享的匿名用户数据。然而,用户可以选择加入或退出。使用GPT4ALL,开发者可以从其庞大的用户基础、GitHub和Discord社区中受益。

5. Ollama

使用 Ollama,您可以轻松创建本地聊天机器人,而无需连接到像 OpenAI 这样的 API。由于一切都在本地运行,您无需支付任何订阅费或 API 调用费用。

Ollama 的关键特性

  • 模型自定义:Ollama 允许您转换 .gguf 模型文件并使用 ollama run modelname 运行它们。
  • 模型库:Ollama 拥有大量模型可供尝试,访问 ollama.com/library
  • 导入模型:Ollama 支持从 PyTorch 导入模型。
  • 社区集成:Ollama 无缝集成到网页和桌面应用程序中,例如 Ollama-SwiftUIHTML UIDify.ai更多
  • 数据库连接:Ollama 支持多个 数据平台
  • 移动集成:像 Enchanted 这样的 SwiftUI 应用将 Ollama 带入 iOS、macOS 和 visionOS。Maid 也是一个跨平台的 Flutter 应用,能够本地处理 .gguf 模型文件。

开始使用 Ollama

要首次使用 Ollama,请访问 https://ollama.com 并下载适合您机器的版本。您可以在 Mac、Linux 或 Windows 上安装它。安装 Ollama 后,您可以在终端中使用以下命令检查其详细信息。

ollama

要运行特定的 LLM,您应该使用以下命令下载它:

ollama pull modelname,其中 modelname 是您要安装的模型名称。请在 GitHub 上查看一些可供下载的示例模型。pull 命令也用于更新模型。一旦使用,仅会获取差异部分。

例如,在下载了 llama3.1 后,在命令行中运行 ollama run llama3.1 将启动该模型。

在上述示例中,我们提示 llama3.1 模型解决一个物理功和能量的问题。

使用 Ollama 的好处

Ollama 在 GitHub 上拥有超过 200 名贡献者,并且有活跃的更新。它拥有最多的贡献者,并且在上述其他开源 LLM 工具中更具可扩展性。

6. LLaMa.cpp

LLaMa.cpp 是支持本地 LLM 工具(如 Ollama 等)的底层后端技术(推理引擎)。LLaMa.cpp 支持显著的大型语言模型推理,配置简单,并在各种硬件上提供出色的本地性能。它也可以在云端运行。

LLaMa.cpp 的主要特点

使用 LLaMa.cpp 开始

要运行您的第一个本地大型语言模型,请使用以下命令安装 llama.cpp:

brew install llama.cpp

接下来,从 Hugging Face 或其他来源下载您想要运行的模型。例如,从 Hugging Face 下载下面的模型并将其保存在您计算机上的某个位置。

https://huggingface.co/MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3.Q4_K_M.gguf

使用您喜欢的命令行工具,如终端,cd 进入您刚下载的 .gguf 模型文件的位置,并运行以下命令。

llama-cli --color \ 
-m Mistral-7B-Instruct-v0.3.Q4_K_M.ggufb \ 
-p "Write a short intro about SwiftUI"

总之,您首先调用 LLaMa CLI 工具并设置颜色和其他标志。-m 标志指定您要使用的模型的路径。-p 标志指定您希望用来指示模型的提示。

运行上述命令后,您将看到以下预览中的结果。

本地 LLM 的用例

在本地运行 LLM 可以帮助开发人员深入了解其性能和工作原理。 本地 LLM 可以查询私有文档和技术论文,以便与这些文档相关的信息不会离开用于查询的设备,不会发送到任何云 AI API。 本地 LLM 在没有互联网的地方和网络信号较差的地方非常有用。

远程医疗环境 中,本地 LLM 可以对患者文档进行排序,而无需出于隐私考虑将其上传到任何 AI API 提供商。

评估本地运行的大型语言模型性能

在本地使用大型语言模型之前,了解其性能对于获得所需的响应至关重要。有几种方法可以确定特定 LLM 的性能。以下是一些方法。

  • 训练:该模型是基于什么数据集进行训练的?
  • 微调:模型在多大程度上可以定制以执行特定任务,或者是否可以针对特定领域进行微调?
  • 学术研究:该 LLM 是否有学术研究论文?

要回答上述问题,您可以查看优秀的资源,如 Hugging FaceArxiv.org。此外,Open LLm LeaderboardLMSYS Chatbot Arena 提供了各种 LLM 的详细信息和基准测试。

本地 LLM 工具结论

正如本文所讨论的,选择和使用本地大型语言模型的动机有很多。如果您不希望将数据集通过互联网发送给 AI API 提供商,则可以对模型进行微调,以执行 远程医疗应用 中的特定任务。许多开源的图形用户界面(GUI)本地 LLM 工具,如 LLm Studio 和 Jan,提供直观的前端用户界面,以便在没有像 OpenAI 或 Claude 这样的订阅服务的情况下配置和实验 LLM。您还发现了各种强大的命令行 LLM 应用程序,如 Ollama 和 LLaMa.cpp,帮助您在本地运行和测试模型,而无需互联网连接。查看 Stream 的 AI 聊天机器人 解决方案,将 AI 聊天集成到您的应用中,并访问所有相关链接以了解更多信息。

最初发布于 https://getstream.io.

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多