Programming
DeepSeek-R1 来了! ⚡ 性能与 OpenAI-o1 相当 📖 完全开源的模型和技术报告 🏆 MIT 许可证:自由提炼和商业化! ...
MiniMax-01 是一个结合了 MiniMax-Text-01 进行文本生成和 MiniMax-VL-01 进行图像理解的模型。它拥有 4560 亿个参数,每次推理激活 459 亿个参数,并且可以处理多达 400 万个 token 的上下文。 文本模型采用混合架构,结合了 Lightning Attention、Softmax Attention 和专家混合(MoE)。图像模型采用“ViT ...
Microsoft Research Phi-4 旨在在复杂推理任务中表现出色,并能够在内存有限或需要快速响应的情况下高效运行。 它拥有140亿个参数,训练使用了高质量的合成数据集、来自精心挑选网站的数据以及学术材料。经过仔细改进,它能够准确遵循指令并保持强大的安全标准。它最适合处理英语输入。 有关更多信息,请参见 [Phi-4 Technical Report] ...
OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。了解更多信息请查看 launch announcement。 注意:该模型目前处于实验阶段,不适合生产使用,并且可能会受到严重的速率限制。 ...
2025年冲击AI领域!6个月掌握LLM的必经之路!
作为一名从电子工程背景转型为专注于大型语言模型(LLMs)和生成式AI的数据科学家,我理解进入AI领域的挑战与兴奋。到2025年,行业格局与我开始旅程时有了显著变化。让我分享一个实用的学习路径,无论您是全新起步还是从其他领域转型。结合我自身的经历和行业经验,我将重点介绍在当今AI领域中最重要的技能和知识。 为什么在2025年关注大型语言模型(LLMs)? 当我开始转向人工智能领域时
阅读更多OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告。 注意:该模型目前处于实验阶段,不适合生产使用,可能会受到严格的速率限制。 ...
1. 介绍 我们推出了 DeepSeek-V3,这是一款强大的混合专家 (MoE) 语言模型,拥有 671B 的总参数,其中每个令牌激活 37B。 为了实现高效推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。 此外,DeepSeek-V3 首创了一种无辅助损失的 ...
Gemini 2.0 Flash 提供了比 Gemini 1.5 Flash 更快的首次令牌时间 (TTFT),同时保持与更大模型如 Gemini 1.5 Pro 相当的质量。它在多模态理解、编码能力、复杂指令执行和函数调用方面引入了显著的增强。这些进步共同提供了更无缝和强大的代理体验。 ...
OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告。 注意:该模型目前处于实验阶段,不适合生产使用,可能会受到严格的速率限制。 ...
OpenAI 最新且最强大的模型系列 o1 旨在在回应之前花更多时间思考。o1 模型系列通过大规模强化学习进行训练,以利用思维链进行推理。 o1 模型针对数学、科学、编程和其他与 STEM 相关的任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告. ...
DeepSeek-V3 是 DeepSeek 团队最新的模型,基于之前版本的指令跟随和编码能力。该模型在近 15 万亿个标记上进行预训练,报告的评估显示该模型在性能上优于其他开源模型,并与领先的闭源模型相媲美。有关模型的详细信息,请访问 DeepSeek-V3 仓库以获取更多信息。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。 ...
Lunaris 8B 是一个基于 Llama 3 的多功能通用和角色扮演模型。它是多个模型的战略合并,旨在平衡创造力与改进的逻辑和一般知识。 由 Sao10k 创建,该模型旨在提供比 Stheno v3.2 更好的体验,具有增强的创造力和逻辑推理能力。 为了获得最佳效果,请使用 Llama 3 Instruct 上下文模板,温 ...
EVA Llama 3.33 70b 是一个角色扮演和故事创作的专业模型。它是对 Llama-3.3-70B-Instruct 在合成数据和自然数据混合上的全参数微调。 它使用了 Celeste 70B 0.1 数据混合,极大地扩展了数据,以提高模型的多样性、创造力和“风味”。 ...
Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型,专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。 在 300K tokens 的输入上下文下,它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...
Amazon Nova Micro 1.0 是一个仅支持文本的模型,能够以非常低的成本在 Amazon Nova 系列模型中提供最低延迟的响应。它的上下文长度为 128K tokens,并针对速度和成本进行了优化,Amazon Nova Micro 在文本摘要、翻译、内容分类、互动聊天和头脑风暴等任务中表现出色。它具有简单的数学推理和编码能力。 ...
实验性版本(2024年12月6日)发布的 Gemini。 ...
text-embedding-3-large 是 OpenAI 于2024年发布的最新文本嵌入模型。相比前代模型,它具有以下主要特点: 主要特性更强的性能: 在大多数任务上的表现都优于之前的 text-embedding-ada-002 模型 更好的多语言支持: 支持100多种语言的文本嵌入 更长的上下文: 支持最多8192个tokens的输入...
这是一个系列模型,旨在复制Claude 3模型的散文质量,特别是Sonnet(https://openrouter.ai/anthropic/claude-3.5-sonnet)和Opus(https://openrouter.ai/anthropic/claude-3-opus)。 该模型是在[Qwen2.5 72B](https://openrouter.ai/qwen/qwen-2.5- ...
Google最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理使用Gemini需遵循Google的Gemin使用条款。 #multimodal ...
Amazon Nova Lite 1.0 是亚马逊推出的一款非常低成本的多模态模型,专注于快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和视觉问答任务。 在 300K tokens 的输入上下文下,它可以在单个输入中分析多个图像或长达 30 分钟的视频。 ...
Amazon Nova Micro 1.0 是一个仅支持文本的模型,能够以非常低的成本在 Amazon Nova 系列模型中提供最低延迟的响应。它的上下文长度为 128K tokens,并针对速度和成本进行了优化,Amazon Nova Micro 在文本摘要、翻译、内容分类、互动聊天和头脑风暴等任务中表现出色。它具有简单的数学推理和编码能力。 ...
Claude 3 Haiku 是 Anthropic 最快、最紧凑的模型,提供近乎即时的响应能力。快速且准确的针对性表现。 查看发布公告和基准测试结果 here #multimodal ...
Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务,在这些任务中,成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低。Flash 非常 ...
一个野生的 7B 参数模型,使用来自 mergekit 的新任务算术合并方法合并了多个模型。合并模型列表: NousResearch/Nous-Capybara-7B-V1.9 HuggingFaceH4/zephyr-7b-beta lemonilia/AshhLimaRP-Mistral-7B...
对原始 MythoMax-L2-B13 的一次重现试验,但使用了更新的模型。 #merge ...
GPT-4o(“o”代表“全能”)是OpenAI最新的AI模型,支持文本和图像输入,并输出文本。它保持了GPT-4 Turbo的智能水平,同时速度是其两倍,成本效益提高了50%。GPT-4o在处理非英语语言和增强视觉能力方面也提供了更好的性能。 为了与其他模型进行基准测试,它曾被暂时称为["im-also-a-good-gpt2-chatbot"] ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编码:自主编写、编辑和运行代码,具备推理和故障排除能力 数据科学:增强人类的数据科学专业知识;在使用多种工具获取洞察的同时,能够处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本,以获取超越文本本身...
One of the highest performing and most popular fine-tunes of Llama 2 13B, with rich descriptions and roleplay. #merge 这些是 MythoMax 13B 的扩展上下文端点。它们可能价格更高。 ...
One of the highest performing and most popular fine-tunes of Llama 2 13B, with rich descriptions and roleplay. #merge 这些是 MythoMax 13B 的扩展上下文端点。它们可能价格更高。 ...
对原始 MythoMax-L2-B13 的一次重现试验,但使用了更新的模型。 #merge ...
PaLM 2 针对帮助解决代码相关问题的聊天机器人对话进行了微调。 ...
Yi Large 模型由 01.AI 设计,考虑了以下用例:知识搜索、数据分类、人类聊天机器人和客户服务。 它以其多语言能力而脱颖而出,特别是在西班牙语、中文、日语、德语和法语方面。 查看 发布公告 以了解更多信息。 ...
这是 Mistral AI 的旗舰模型,Mistral Large 2(版本 mistral-large-2407)。它是一个专有的可用权重模型,擅长推理、代码、JSON、聊天等。请在 这里 阅读发布公告。 它支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在 ...
这是 Mistral AI 的旗舰模型,Mistral Large 2(版本 mistral-large-2407)。它是一个专有的可用权重模型,擅长推理、代码、JSON、聊天等。请在 这里 阅读发布公告。 它支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在 ...
Llama 3.1 Sonar 是 Perplexity 最新的模型系列。它在成本效益、速度和性能上超越了他们早期的 Sonar 模型。 这是一个正常的离线 LLM,但该模型的 在线版本 具有互联网访问功能。 ...
Llama 3.1 Sonar 是 Perplexity 最新的模型系列。它在成本效益、速度和性能上超越了他们早期的 Sonar 模型。 这是一个普通的离线 LLM,但该模型的 在线版本 具有互联网访问权限。 ...
OpenChat 7B 是一个开源语言模型库,经过“C-RLFT(条件强化学习微调)”的微调——这是一种受离线强化学习启发的策略。它在混合质量的数据上进行训练,没有偏好标签。对于在 Mistral 7B 上微调的 OpenChat,请查看 OpenChat 7B。 对于在 Llama 8B 上微调的 OpenChat,请查看 [Ope...
一个较旧的 GPT-3.5 Turbo 模型,具备改进的指令跟随能力、JSON 模式、可重复的输出、并行函数调用等功能。训练数据:截至 2021 年 9 月。 ...
一个野生的 7B 参数模型,使用来自 mergekit 的新任务算术合并方法合并了多个模型。合并模型列表: NousResearch/Nous-Capybara-7B-V1.9 HuggingFaceH4/zephyr-7b-beta lemonilia/AshhLimaRP-Mistral-7B...
该安全模型具有8B参数,并基于Llama 3系列。与其前身LlamaGuard 1一样,它可以进行提示和响应分类。 LlamaGuard 2的功能类似于普通的LLM,生成文本以指示给定的输入/输出是否安全。如果被认为不安全,它还会分享违反的内容类别。 为了获得最佳效果,请使用原始提示输入或` ...
一个由 Mistral AI 提供的预训练生成稀疏专家混合模型,包含 8 个专家(前馈网络),总计 47B 参数。基础模型(未针对指令进行微调) - 请参见 Mixtral 8x7B Instruct 以获取经过指令微调的模型。 #moe ...
该模型目前由 Mistral-7B-v0.2 提供支持,并结合了比 Mistral 7B 更“优秀”的微调,灵感来自社区的工作。它最适合用于大批量处理任务,在这些任务中,成本是一个重要因素,但推理能力并不是关键。 ...
Google 的旗舰文本生成模型。旨在处理自然语言任务、多轮文本和代码聊天,以及代码生成。 请参阅来自 Deepmind 的基准测试和提示指南。 使用 Gemini 需遵循 Google 的 Gemini 使用条款。 ...
The NeverSleep团队回来了,带来了基于他们精心挑选的角色扮演数据训练的Llama 3 70B微调模型。Lumimaid在eRP和RP之间取得了平衡,旨在在必要时保持严肃,但又不受限制。 为了增强其整体智能和聊天能力,约40%的训练数据并非角色扮演。这提供了广泛的知识供访问,同时仍然保持角色扮演作为主要优势。 使用此模型须遵循[Meta的可接受使用政策](https://llama ...
一个大型 LLM 通过将两个微调的 Llama 70B 模型合并成一个 120B 模型而创建。结合了 Xwin 和 Euryale。 致谢@chargoddard 开发了用于合并模型的框架 - mergekit。 [@Undi95](h...
Google的旗舰多模态模型,支持在文本或聊天提示中使用图像和视频,以获得文本或代码响应。 请参阅Deepmind提供的基准和提示指南。 使用Gemini需遵循Google的Gemini使用条款。 #multimodal ...
Hermes 3 是一个通用语言模型,相较于 Hermes 2 有许多改进,包括先进的代理能力、更加出色的角色扮演、推理、多轮对话、长上下文连贯性以及各方面的改进。 Hermes 3 405B 是 Llama-3.1 405B 基础模型的前沿级全参数微调,专注于将 LLM 与用户对齐,赋予最终用户强大的引导能力和控制权。 Hermes 3 系列在 Hermes 2 的能力基础上进行了构建和 ...
WizardLM-2 7B 是微软 AI 最新 Wizard 模型的较小变体。它是最快的,并且在性能上与现有的 10 倍大开源领先模型相当。 它是对 Mistral 7B Instruct 的微调,使用与 WizardLM-2 8x22B 相同的技术。 要了解更多 ...
Google最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理使用Gemini需遵循Google的Gemin使用条款。 #multimodal ...
command-r-plus-08-2024 是 Command R+ 的更新,与之前的 Command R+ 版本相比,吞吐量提高了大约 50%,延迟降低了 25%,同时硬件占用保持不变。 在此处阅读发布帖子 here。 ...
DBRX 是由 Databricks 开发的新开源大语言模型。在 132B 的参数量下,它在语言理解、编程、数学和逻辑的标准行业基准测试中超越了现有的开源 LLM,如 Llama 2 70B 和 Mixtral-8x7b。 它采用了细粒度的专家混合(MoE)架构。任何输入上都有 36B 参数处于激活状态。它在 12T 的文本和代码数据上进行 ...
The Jamba-Instruct model, introduced by AI21 Labs, is an instruction-tuned variant of their hybrid SSM-Transformer Jamba model, specifically optimized for enterprise applications.256K Context Win...
Euryale 70B v2.1 是一个专注于创意角色扮演的模型,来自 Sao10k。更好的提示遵循性。 更好的解剖学/空间意识。 更好地适应独特和自定义的格式/回复格式。 非常有创意,很多独特的风格。 在角色扮演过程中没有限制。...
一个高性能、行业标准的 7.3B 参数模型,针对速度和上下文长度进行了优化。 Mistral 7B Instruct 有多个版本变体,这里是最新版本。 ...
Phi-3 Mini 是一个强大的 3.8B 参数模型,旨在实现高级语言理解、推理和指令跟随。通过监督微调和偏好调整进行优化,它在涉及常识、数学、逻辑推理和代码处理的任务中表现出色。 在发布时,Phi-3 Medium 在轻量级模型中展示了最先进的性能。该模型是静态的,训练于一个截止日期为 2023 年 10 月的离线数据集。 ...
Phi-3 128K Medium 是一个强大的 140 亿参数模型,旨在实现高级语言理解、推理和指令跟随。通过监督微调和偏好调整进行优化,它在涉及常识、数学、逻辑推理和代码处理的任务中表现出色。 在发布时,Phi-3 Medium 在轻量级模型中展示了最先进的性能。在 MMLU-Pro 评估中,该模型甚至接近 Llama3 70B 的性能水平。 对于 4k 上下文长度,请尝试 [Phi-3 ...
Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在应对高容量、高频率的任务,在这些任务中,成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低。Flash 非常适 ...
Command-R 是一个 35B 参数模型,能够以更高的质量、更可靠的方式以及更长的上下文执行对话语言任务。它可以用于复杂的工作流程,如代码生成、检索增强生成(RAG)、工具使用和代理。 阅读发布帖子 here。 使用此模型须遵循 Cohere 的 [Acceptable Use Policy](https://do ...
Qwen2 7B 是一个基于变换器的模型,在语言理解、多语言能力、编码、数学和推理方面表现出色。 它具有 SwiGLU 激活、注意力 QKV 偏置和组查询注意力。它在大量数据上进行了预训练,并进行了监督微调和直接偏好优化。 有关更多详细信息,请参见这篇 博客文章 和 [GitHub 仓库](https://git ...
Gemma 2 27B by Google 是一个开放模型,基于创建 Gemini models 所使用的相同研究和技术构建。 Gemma 模型非常适合各种文本生成任务,包括问答、摘要和推理。 有关更多详细信息,请参阅 [launch announcement](https://blog.google/technology/developers/goo ...
来自Goliath的制造商,Magnum 72B是新系列模型中的第一款,旨在达到Claude 3模型的散文质量,特别是Opus和Sonnet。 该模型基于Qwen2 72B,并使用5500万标记的高度 ...
Gemma 2 9B by Google 是一个先进的开源语言模型,在其尺寸类别中设定了效率和性能的新标准。 该模型旨在处理多种任务,使开发者和研究人员能够构建创新应用,同时保持可访问性、安全性和成本效益。 有关更多详细信息,请参见 launch announcement ...
Gemma 2 9B by Google 是一个先进的开源语言模型,在其尺寸类别中设定了效率和性能的新标准。 该模型旨在处理多种任务,使开发者和研究人员能够构建创新应用,同时保持可访问性、安全性和成本效益。 有关更多详细信息,请参见 launch announcement ...
A 7.3B 参数的基于 Mamba 的模型,旨在处理代码和推理任务。线性时间推理,允许理论上无限的序列长度 256k 令牌上下文窗口 针对快速响应进行了优化,特别有利于代码生产力 在代码和推理任务中表现与最先进的变换器模型相当 根据 Apache 2.0 许可证提供,允许免费使用、修改和分发...
A 12B 参数模型,具有 128k 令牌上下文长度,由 Mistral 与 NVIDIA 合作构建。 该模型是多语言的,支持英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语。 它支持函数调用,并在 Apache 2.0 许可证下发布。 ...
Qwen2 7B 是一个基于变换器的模型,在语言理解、多语言能力、编码、数学和推理方面表现出色。 它具有 SwiGLU 激活、注意力 QKV 偏置和组查询注意力。它在大量数据上进行了预训练,并进行了监督微调和直接偏好优化。 有关更多详细信息,请参见这篇 博客文章 和 [GitHub 仓库](https://git ...
Phi-3.5 模型是轻量级的、最先进的开放模型。这些模型使用 Phi-3 数据集进行训练,该数据集包括合成数据和经过筛选的公开可用网站数据,重点关注高质量和推理密集特性。Phi-3.5 Mini 使用 3.8B 参数,是一个密集的仅解码器变换器模型,使用与 Phi-3 Mini 相同的分词器。 这些模型经过严格的增 ...
动态模型持续更新至 ChatGPT 中的当前版本 GPT-4o。旨在用于研究和评估。 注意:该模型目前处于实验阶段,不适合生产使用场景,可能会受到严格的速率限制。 ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编码:自主编写、编辑和运行代码,具备推理和故障排除能力 数据科学:增强人类的数据科学专业知识;在使用多种工具获取洞察的同时,能够处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本,以获取超越文本本身的...
Llama 3.2 1B 是一个拥有 10 亿参数的语言模型,专注于高效执行自然语言任务,如摘要、对话和多语言文本分析。其较小的体积使其能够在低资源环境中高效运行,同时保持强大的任务性能。 支持八种核心语言,并可进行微调以支持更多,Llama 1.3B 非常适合寻求轻量级但强大的 AI 解决方案的企业或开发者,这些解决方案能够在多样的多语言环境中运行,而不需要大型模型的高计算需求。 点击这里 ...
Meta最新发布的模型系列(Llama 3.1)推出了多种尺寸和版本。这是基础的405B预训练版本。 与领先的闭源模型相比,它在人工评估中表现出色。 使用此模型须遵循Meta的可接受使用政策。 ...
Google最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理使用Gemini需遵循Google的Gemin使用条款。 #multimodal ...
Claude 3.5 Haiku 在所有技能领域(包括编码、工具使用和推理)中都有所增强。作为 Anthropic 系列中速度最快的模型,它提供快速的响应时间,适用于需要高交互性和低延迟的应用,如面向用户的聊天机器人和即时代码补全。它在数据提取和实时内容审核等专业任务中表现出色,使其成为广泛行业的多功能工具。 它不支持图像输入。 查看发布公告和基准测试结果 [here](https://ww ...
Claude 3 Opus 是 Anthropic 针对高度复杂任务推出的最强大模型。它具有顶级的性能、智能、流畅性和理解能力。 查看发布公告和基准测试结果 这里 #multimodal ...
Claude 3 Sonnet 是企业工作负载的智能与速度的理想平衡。以更低的价格提供最大效用,可靠,适合大规模部署的平衡。 查看发布公告和基准测试结果 here #multimodal ...
Claude 3 Haiku 是 Anthropic 最快、最紧凑的模型,提供近乎即时的响应能力。快速且准确的针对性表现。 查看发布公告和基准测试结果 here #multimodal ...
Claude 3.5 Haiku 在所有技能领域(包括编码、工具使用和推理)中都有所增强。作为 Anthropic 系列中速度最快的模型,它提供快速的响应时间,适用于需要高交互性和低延迟的应用,如面向用户的聊天机器人和即时代码补全。它在数据提取和实时内容审核等专业任务中表现出色,使其成为广泛行业的多功能工具。 它不支持图像输入。 查看发布公告和基准测试结果 [here](https://ww ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编码:自主编写、编辑和运行代码,具备推理和故障排除能力 数据科学:增强人类的数据科学专业知识;在使用多种工具获取洞察的同时,能够处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本,以获取超越文本本身的...
OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。了解更多信息请查看 launch announcement。 注意:该模型目前处于实验阶段,不适合生产使用,并且可能会受到严重的速率限制。 ...
Euryale L3.1 70B v2.2 是一个专注于创意角色扮演的模型,来自 Sao10k。它是 Euryale L3 70B v2.1 的继任者。 ...
Jamba 1.5 Mini 是世界上首个生产级的基于 Mamba 的模型,结合了 SSM 和 Transformer 架构,具有 256K 的上下文窗口和高效能。 它支持 9 种语言,能够处理各种写作和分析任务,表现与类似的小模型相当或更好。 该模型使用更少的计算机内存,并且在处理较长文本时比以前的设计更快。 阅读他们的 [announcement](https://www.ai21.c ...
Hermes 3 是一个通用语言模型,相较于 Hermes 2 有许多改进,包括先进的代理能力、更加出色的角色扮演、推理、多轮对话、长上下文连贯性以及各方面的提升。 Hermes 3 70B 是一个具有竞争力的微调版本,甚至可以说优于 [Llama-3.1 70B 基础模型](/meta-llama/l ...
Hermes 3 是一个通用语言模型,相较于 Hermes 2 有许多改进,包括先进的代理能力、更加出色的角色扮演、推理、多轮对话、长上下文连贯性以及各方面的改进。 Hermes 3 405B 是 Llama-3.1 405B 基础模型的前沿级全参数微调,专注于将 LLM 与用户对齐,赋予最终用户强大的引导能力和控制权。 Hermes 3 系列在 Hermes 2 的能力基础上进行了构建和扩 ...
Lumimaid v0.2 8B 是对 Llama 3.1 8B 的微调,与 Lumimaid v0.1 相比,在数据集方面有了“巨大的提升”。不规范的聊天输出已被清除。 使用此模型需遵循 Meta 的可接受使用政策。 ...
GPT-4o(“o”代表“全能”)是OpenAI最新的AI模型,支持文本和图像输入,并输出文本。它保持了GPT-4 Turbo的智能水平,同时速度是其两倍,成本效益提高了50%。GPT-4o在处理非英语语言和增强视觉能力方面也提供了更好的性能。 为了与其他模型进行基准测试,它曾被暂时称为["im-also-a-good-gpt2-chatbot"] ...
GPT-4o(“o”代表“全能”)是OpenAI最新的AI模型,支持文本和图像输入,并输出文本。它保持了GPT-4 Turbo的智能水平,同时速度是其两倍,成本效益提高了50%。GPT-4o在处理非英语语言和增强视觉能力方面也提供了更好的性能。 为了与其他模型进行基准测试,它曾被暂时称为["im-also-a-good-gpt2-chatbot"] ...
Gemini 1.5 Flash-8B 针对速度和效率进行了优化,在聊天、转录和翻译等小提示任务中提供了增强的性能。由于延迟降低,它在实时和大规模操作中非常有效。该模型专注于具有成本效益的解决方案,同时保持高质量的结果。 [点击这里了解更多关于该模型的信息](https://developers.googleblog.com/en/gemini-15-flash-8b-is-now-gener ...
Inflection 3 的生产力经过优化,以便更好地遵循指令。它更适合需要 JSON 输出或严格遵循提供的指南的任务。 有关类似于 Pi 的情感智能,请参见 Inflect 3 Pi。 有关更多详细信息,请参见 Inflection 的公告。 ...
Qwen2.5 7B 是 Qwen 大型语言模型的最新系列。Qwen2.5 在 Qwen2 的基础上带来了以下改进:知识显著增加,并在编码和数学方面的能力大幅提升,这得益于我们在这些领域的专业专家模型。在遵循指令、生成长文本(超过 8K tokens)、理解结构化数据(例如,表格)以及生成结构化输出(尤其是 JSON)方面有显著改进。对系统提示的多样性更具韧性,增强了角色扮演的实...
Rocinante 12B 旨在提供引人入胜的叙事和丰富的散文。 早期测试者报告称:词汇量扩大,独特而富有表现力的用词选择 创造力增强,能够创作生动的叙述 冒险满满且引人入胜的故事...
Qwen2.5 72B 是 Qwen 大型语言模型的最新系列。Qwen2.5 在 Qwen2 的基础上带来了以下改进:知识显著增加,并在编码和数学方面大幅提升了能力,这得益于我们在这些领域的专业专家模型。在遵循指令、生成长文本(超过 8K tokens)、理解结构化数据(例如,表格)以及生成结构化输出(特别是 JSON)方面有显著改进。对系统提示的多样性更具韧性,增强了角色扮演的...
Llama 3.2 1B 是一个拥有 10 亿参数的语言模型,专注于高效执行自然语言任务,如摘要、对话和多语言文本分析。其较小的体积使其能够在低资源环境中高效运行,同时保持强大的任务性能。 支持八种核心语言,并可进行微调以支持更多,Llama 1.3B 非常适合寻求轻量级但强大的 AI 解决方案的企业或开发者,这些解决方案能够在多样的多语言环境中运行,而不需要大型模型的高计算需求。 点击这里 ...
OpenAI 最新和最强大的模型系列,o1 旨在在响应之前花更多时间思考。 o1 模型针对数学、科学、编程和其他 STEM 相关任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅 发布公告。 注意:该模型目前处于实验阶段,不适合生产使用,可能会受到严格的速率限制。 ...
2025 年成为人工智能工程师的终极路线图
- Rifx.Online
- Programming , Machine Learning , Data Science
- 25 Nov, 2024
介绍:乘风破浪的人工智能 世界正经历一场人工智能的淘金热,像谷歌、特斯拉和亚马逊这样的公司正在向人工智能投资数十亿美元。对于那些有抱负的人来说,人工智能工程师的角色已成为最有前途的职业之一,融合了尖端技术、解决问题的能力和创造力。如果你准备好迎接这个挑战,这份指南将带您通过逐步的、按周的路线图,帮助您在2025年开启人工智能职业生涯。 这份路线图提供了一个详细、现实的8个月学习
阅读更多谷歌的 Gemini 1.5 Pro 实验版本。 ...
Mistral Large 2 2411 是 Mistral Large 2 的更新版本,与 Pixtral Large 2411 一起发布。 它流利地支持英语、法语、西班牙语、德语和意大利语,具有高语法准确性,并且其长上下文窗口允许从大型文档中精 ...
开发者/公司: 百度研究 关键能力与应用场景: ERNIE-Speed-128K 在实时应用中表现出色,利用知识整合增强语义理解,适用于机器翻译、文本摘要、情感分析和智能问答系统。 特点与改进:知识增强: 集成全面的知识图谱。 模型压缩: 采用剪枝和量化技术提高效率。 动态推理: 根据输入特征动态调整计...
开发者/公司: 百度 概述: ERNIE Bot Turbo 是 ERNIE Bot 的增强版本,提供扩展的功能,支持 7K 输入 + 1K 输出。它包括系统设置和新的推理参数。 ERNIE Bot 特性:文学创作: 总结核心内容并为文学作品建议续写角度;回答有关衍生品的事实问题。 商业文案: 创建富有创意和吸引力...
GLM-4 Air 模型介绍 关键能力和主要使用案例多语言支持:主要针对中文和英文,同时支持24种其他语言。 任务完成:能够通过网页浏览访问在线信息,使用Python解释器解决数学问题,利用文本到图像模型,并调用用户定义的函数[2][5]。 指令遵循:在英文和中文中有效地遵循指令[2]。最重要的特性和改 ...
Qwen2.5-Coder 32B Instruct:最佳编码模型--完整的分步指南和性能...
- Rifx.Online
- Programming , Machine Learning , Generative AI
- 14 Nov, 2024
学习如何在本地安装 Qwen2.5-Coder,探索其卓越的编码能力,并通过实践示例评估其性能 介绍 在不断发展的AI驱动编程工具领域,大型语言模型(LLMs)显著改变了开发者编写、调试和优化代码的方式。今天,我们很高兴探索Qwen2.5-Coder系列,这是一项开源的奇迹,承诺在代码生成和AI编码助手领域树立新的标准。该系列的最新版本**Qwen2.5-Coder
阅读更多Inferor 是顶级角色扮演模型的合并体,专注于沉浸式叙事和故事讲述。 该模型使用 Model Stock 合并方法,基于 anthracite-org/magnum-v4-12b 进行 ...
Qwen2.5-Coder 是最新一系列针对代码的 Qwen 大型语言模型(以前称为 CodeQwen)。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:在 代码生成、代码推理 和 代码修复 方面有显著提升。 为现实世界应用(如 代码代理)提供了更全面的基础。不仅增强了编码能力,还保持了其在数...
SorcererLM 是一个先进的 RP 和故事讲述模型,作为一个低秩 16 位 LoRA 在 WizardLM-2-8x22B 上进行微调。先进的推理和情感智能,实现引人入胜和沉浸式的互动 生动的写作能力,增强了空间和上下文意识 增强的叙事深度,促进创造性和动态的故事讲述...
一个角色扮演/故事创作专用模型,针对合成数据和自然数据的混合进行全参数微调的Qwen2.5-32B。 它使用Celeste 70B 0.1数据混合,极大地扩展了数据,提高了模型的多样性、创造力和“风味”。 ...
UnslopNemo v4.1 是来自 Rocinante 创作者的最新作品,旨在用于冒险写作和角色扮演场景。 ...
Claude 3.5 Haiku 在所有技能领域中都进行了增强,包括编码、工具使用和推理。作为 Anthropic 系列中速度最快的模型,它提供快速的响应时间,适用于需要高交互性和低延迟的应用,如面向用户的聊天机器人和即时代码补全。它在数据提取和实时内容审核等专业任务中表现出色,使其成为广泛行业的多功能工具。 它不支持图像输入。 查看发布公告和基准测试结果 [he ...
Claude 3.5 Haiku 特性提供了更高的速度、编码准确性和工具使用能力。旨在在实时应用中表现出色,它提供了快速的响应时间,这对于动态任务(如聊天互动和即时编码建议)至关重要。 这使其非常适合需要速度和精度的环境,例如软件开发、客户服务机器人和数据管理系统。 此模型当前指向 [Claude 3.5 Haiku (2024-10-22)](/anthropi ...
Lumimaid v0.2 70B 是对 Llama 3.1 70B 的微调,与 Lumimaid v0.1 相比,在数据集方面有了“巨大的提升”。不合格的聊天输出已被清除。 使用此模型须遵循 [Meta 的可接受使用政策](https://llama.meta.com/llama3/use ...
这是一个系列模型,旨在复制Claude 3模型的散文质量,特别是Sonnet和Opus。 该模型是在[Qwen2.5 72B]s的基础上进行微调的。 ...
Ministral 3B 是一个针对设备和边缘计算优化的 3B 参数模型。它在知识、常识推理和函数调用方面表现出色,在大多数基准测试中超越了像 Mistral 7B 这样的更大模型。支持最长 128k 的上下文长度,非常适合高效推理的代理工作流和专业任务的协调。 ...
Qwen2.5 7B 是 Qwen 大语言模型的最新系列。Qwen2.5 在 Qwen2 的基础上带来了以下改进:知识显著增加,并在编码和数学方面的能力大幅提升,这得益于我们在这些领域的专业模型。在遵循指令、生成长文本(超过 8K tokens)、理解结构化数据(例如,表格)以及生成结构化输出,特别是 JSON 方面有显著改进。对系统提示的多样性更具韧...
NVIDIA的Llama 3.1 Nemotron 70B是一个旨在生成精确和有用响应的语言模型。利用Llama 3.1 70B架构和基于人类反馈的强化学习(RLHF),它在自动对齐基准测试中表现出色。该模型专为需要高准确性以提供帮助和生成响应的应用而设计,适合处理多个领域的多样 ...
Inflection 3 的生产力经过优化,以便更好地遵循指令。它更适合需要 JSON 输出或精确遵循提供的指导方针的任务。 有关类似于 Pi 的情感智能,请参见 Inflect 3 Pi。 有关更多详细信息,请参见 [Inflection 的公告](https://inflection.ai/blog ...
Gemini 1.5 Flash-8B 针对速度和效率进行了优化,在聊天、转录和翻译等小提示任务中提供了增强的性能。通过减少延迟,它在实时和大规模操作中非常有效。该模型专注于成本效益解决方案,同时保持高质量的结果。 [点击此处了解更多关于此模型的信息](https://developers.googleblog.com/en/gemini-15-flash-8b-i ...
一个专注于角色扮演和创意写作的模型,该模型基于 Qwen2.5-14B,经过合成数据和自然数据的混合微调。 它在 1.5M 令牌的角色扮演数据上进行训练,并在 1.5M 令牌的合成数据上进行微调。 ...
来自Goliath的制造商,Magnum 72B是第七个旨在达到Claude 3模型的散文质量的模型系列,特别是Opus和Sonnet。 该模型基于Qwen2 72B,并使 ...
Rocinante 12B 旨在提供引人入胜的叙事和丰富的散文。 早期测试者报告:词汇量扩展,独特且富有表现力的用词选择 创造力增强,能够生动叙述 充满冒险和引人入胜的故事...
Llama 3.2 1B 是一个拥有10亿参数的语言模型,专注于高效执行自然语言任务,如摘要、对话和多语言文本分析。其较小的规模使其能够在低资源环境中高效运行,同时保持强大的任务性能。 支持八种核心语言,并可针对更多语言进行微调,Llama 1.3B 非常适合寻求轻量级但强大的 AI 解决方案的企业或开发者,这些解决方案能够在多样化的多语言环境中运行,而不需要大型模 ...
Qwen2.5 72B 是 Qwen 大型语言模型的最新系列。Qwen2.5 在 Qwen2 的基础上带来了以下改进:知识显著增加,并在编码和数学能力上有了很大提升,这得益于我们在这些领域的专业专家模型。在遵循指令、生成长文本(超过 8K tokens)、理解结构化数据(例如,表格)以及生成结构化输出(特别是 JSON)方面有显著改进。对系统提示的多样...
Lumimaid v0.2 8B 是对 Llama 3.1 8B 的微调,相较于 Lumimaid v0.1,数据集有了“巨大的提升”。不当的聊天输出已被清除。 使用此模型须遵循 [Meta 的可接受使用政策](https://llama.meta.com/llama3/use-policy/ ...
OpenAI最新且最强大的模型系列o1旨在在响应之前花更多时间思考。 o1模型经过优化,适用于数学、科学、编程及其他STEM相关任务。它们在物理、化学和生物学的基准测试中始终展现出博士级的准确性。了解更多信息,请查看发布公告。 注意:该模型目前处于实验阶段,不适合生产使用,并可能受到严格的速率限制。 ...
OpenAI最新且最强大的模型系列o1旨在在响应之前花更多时间思考。 o1模型经过优化,适用于数学、科学、编程和其他STEM相关任务。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息,请参阅发布公告。 注意:该模型目前处于实验阶段,不适合生产使用案例,并且可能会受到严格的速率限制。 ...
command-r-plus-08-2024 是 Command R+ 的更新,与之前的 Command R+ 版本相比,吞吐量提高了大约 50%,延迟降低了 25%,同时保持相同的硬件占用。 在 [这里](https://docs.cohere.com/changelog/command-gets-refresh ...
command-r-08-2024 是 Command R 的更新,提升了多语言检索增强生成 (RAG) 和工具使用的性能。更广泛地说,它在数学、代码和推理方面表现更佳,并且与之前的更大版本 Command R+ 模型具有竞争力。 阅读发布帖子 [这里](https://docs.cohere.com/changelog/c ...
Jamba 1.5 Large 是 AI21 新一代开放模型家族的一部分,提供卓越的速度、效率和质量。 它具有 256K 的有效上下文窗口,是开放模型中最长的,能够在文档摘要和分析等任务上提升性能。 基于新颖的 SSM-Transformer 架构,它在基准测试中超越了更大的模型,如 Llama 3.1 70B,同时保持资源效率。 阅读他们的 [announce ...
Jamba 1.5 Mini 是世界上首个生产级 Mamba 基础模型,结合了 SSM 和 Transformer 架构,具有 256K 的上下文窗口和高效率。 它支持 9 种语言,并能够处理各种写作和分析任务,效果与类似的小模型相当或更好。 该模型比以前的设计使用更少的计算机内存,并且在处理较长文本时速度更快。 阅读他们的 [公告](https://www.a ...
Phi-3.5 模型是轻量级的、先进的开放模型。这些模型使用 Phi-3 数据集进行训练,该数据集包括合成数据和经过筛选的公共网站数据,重点关注高质量和推理密集的特性。Phi-3.5 Mini 使用 3.8B 参数,是一种仅解码的稠密变换器模型,使用与 Phi-3 Mini 相同的分词器。 ...
Hermes 3 是一个通用语言模型,相较于 Hermes 2 有许多改进,包括先进的代理能力,更好的角色扮演,推理,多轮对话,长上下文连贯性,以及各方面的改进。 Hermes 3 70B 是一个具有竞争力的微调版本,甚至可以说是 [Llama-3.1 70B 基础模型](/ ...
Hermes 3 是一个通用语言模型,相较于 Hermes 2 有许多改进,包括先进的代理能力、显著更好的角色扮演、推理、多轮对话、长上下文一致性以及各方面的提升。 Hermes 3 405B 是 Llama-3.1 405B 基础模型的前沿级全参数微调,专注于将 LLM 与用户对齐,赋予终端用户强大的引导能力和控制权。 Hermes 3 系列在 Hermes 2 ...
Llama 3.1 Sonar 是 Perplexity 最新的模型系列。它在成本效益、速度和性能上超越了他们早期的 Sonar 模型。该模型基于 Llama 3.1 405B,并具有互联网访问功能。 ...
Lunaris 8B 是一个多功能的通用和角色扮演模型,基于 Llama 3。它是多个模型的战略合并,旨在平衡创造力与改进的逻辑和一般知识。 由 Sao10k 创建,该模型旨在提供比 Stheno v3.2 更好的体验,具有增强的创造力和逻辑推理能力。 为了获得最佳效果,请使用 Llama 3 In ...
Starcannon 12B 是一个创意角色扮演和故事写作模型,基于 nothingiisreal/mn-celeste-12b 并使用 [intervitens/mini-magnum-12b-v1.1](https://huggingface.co/int ...
Llama 3.1 Sonar 是 Perplexity 最新的模型系列。它在成本效益、速度和性能方面超越了他们早期的 Sonar 模型。 这是 离线聊天模型 的在线版本。它专注于提供有帮助、最新和真实的响应。 #online ...
Llama 3.1 Sonar 是 Perplexity 最新的模型系列。它在成本效率、速度和性能上超越了他们早期的 Sonar 模型。 这是 离线聊天模型 的在线版本。它专注于提供有用、最新和真实的响应。 #online ...
Meta最新发布的模型类别(Llama 3.1)推出了多种尺寸和版本。这个70B的指令调优版本针对高质量对话用例进行了优化。 在人工评估中,它与领先的闭源模型相比表现出色。 使用该模型需遵循Meta的可接受使用政策。 ...
Meta最新发布的模型系列(Llama 3.1)推出了多种规模和版本。这个70B的指令调优版本针对高质量对话用例进行了优化。 与领先的闭源模型相比,它在人工评估中表现出色。 使用该模型须遵循Meta的可接受使用政策。 _这些是[Llama 3.1 70B Instruct]( ...
Meta最新发布的模型系列(Llama 3.1)推出了多种尺寸和版本。这个8B指令调优版本快速且高效。 与领先的闭源模型相比,它在人工评估中表现出色。 使用此模型需遵循Meta的可接受使用政策。 ...
由Mistral与NVIDIA合作构建的12B参数模型,具有128k的上下文长度。 该模型是多语言的,支持英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语。 它支持函数调用,并在Apache 2.0许可证下发布。 ...
Qwen2 7B 是一个基于变换器的模型,擅长语言理解、多语言能力、编码、数学和推理。 它具有 SwiGLU 激活、注意力 QKV 偏置和组查询注意力。它在大量数据上进行预训练,并经过监督微调和直接偏好优化。 有关更多详细信息,请参阅此 博客文章 和 [GitHub 仓库](https ...
Qwen2 7B 是一个基于变换器的模型,在语言理解、多语言能力、编码、数学和推理方面表现出色。 它具有 SwiGLU 激活、注意力 QKV 偏置和组查询注意力。它在大量数据上进行了预训练,并进行了监督微调和直接偏好优化。 有关更多详细信息,请参见这篇 博客文章 和 [GitHub 仓 ...
Gemma 2 27B 由 Google 开发,是一个开放模型,基于创建 Gemini 模型 所使用的相同研究和技术。 Gemma 模型非常适合多种文本生成任务,包括问答、摘要和推理。 有关更多详细信息,请参阅 [发布公告](https://blog.google/technology/developers/google-g ...
Gemma 2 9B by Google 是一个先进的开源语言模型,在其尺寸类别中设定了效率和性能的新标准。 它旨在支持各种任务,使开发者和研究人员能够构建创新应用,同时保持可访问性、安全性和经济性。 有关更多详细信息,请参见 [launch announcement](https://blog.google/technology/developers/googl ...
Gemma 2 9B by Google 是一个先进的开源语言模型,在其尺寸类别中设定了效率和性能的新标准。 该模型旨在支持多种任务,使开发者和研究人员能够构建创新应用,同时保持可访问性、安全性和成本效益。 有关更多详细信息,请参阅 发布公告。 ...
Claude 3.5 Sonnet 提供了超越 Opus 的能力,以比 Sonnet 更快的速度,且价格与 Sonnet 相同。Sonnet 在以下方面表现尤为出色:编程:自主编写、编辑和运行代码,并进行推理和故障排除 数据科学:增强人类的数据科学专业知识;在使用多种工具获取见解的同时,处理非结构化数据 视觉处理:擅长解读图表、图形和图像,准确转录文本...
一个高性能、行业标准的7.3B参数模型,针对速度和上下文长度进行了优化。 Mistral 7B Instruct有多个版本变体,本文旨在介绍最新版本。 ...
一个高性能、行业标准的 7.3B 参数模型,针对速度和上下文长度进行了优化。 Mistral 7B Instruct 有多个版本变体,这里是最新版本。 _这些是 Mistral 7B Instruct 的免费限速端点。输出可能会被缓存。有关速率限制的信息,请阅读 [这里](/docs/limi ...
Phi-3 Mini 是一个强大的 3.8B 参数模型,旨在实现高级语言理解、推理和指令跟随。通过监督微调和偏好调整进行优化,它在涉及常识、数学、逻辑推理和代码处理的任务中表现出色。 在发布时,Phi-3 Medium 在轻量级模型中展示了最先进的性能。该模型是静态的,训练于截止到 2023 年 10 月的离线数据集。 ...
Phi-3 Mini 是一个强大的 3.8B 参数模型,旨在实现高级语言理解、推理和指令跟随。通过监督微调和偏好调整进行优化,它在涉及常识、数学、逻辑推理和代码处理的任务中表现出色。 在发布时,Phi-3 Medium 在轻量级模型中展示了最先进的性能。该模型是静态的,训练于一个截至 2023 年 10 月的离线数据集。 _这些是免费的、速率限制的端点,适用于 [ ...
Phi-3 128K Medium 是一个强大的 140 亿参数模型,旨在实现高级语言理解、推理和指令跟随。通过监督微调和偏好调整进行优化,它在涉及常识、数学、逻辑推理和代码处理的任务中表现出色。 在发布时,Phi-3 Medium 在轻量级模型中展示了最先进的性能。在 MMLU-Pro 评估中,该模型甚至接近 Llama3 70B 的性能水平。 对于 4k 上下 ...
Phi-3 128K Medium 是一个强大的 140 亿参数模型,旨在实现高级语言理解、推理和指令跟随。通过监督微调和偏好调整进行优化,它在涉及常识、数学、逻辑推理和代码处理的任务中表现出色。 在发布时,Phi-3 Medium 在轻量级模型中展示了最先进的性能。在 MMLU-Pro 评估中,该模型甚至接近 Llama3 70B 的性能水平。 对于 4k 上下 ...
DeepSeek-V2.5 是一个升级版本,结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前两个版本的通用能力和编码能力。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。它总共包含 236B 个参数,其中每个 token 激活 21B。 ...
Gemini 1.5 Flash 是一个基础模型,在视觉理解、分类、摘要以及从图像、音频和视频创建内容等多种多模态任务中表现出色。它擅长处理视觉和文本输入,例如照片、文档、信息图和截图。 Gemini 1.5 Flash 旨在处理高容量、高频率的任务,其中成本和延迟至关重要。在大多数常见任务中,Flash 的质量与其他 Gemini Pro 模型相当,但成本显著降低 ...
Mistral的官方指令微调版本Mixtral 8x22B。它使用141B中的39B活跃参数,为其规模提供无与伦比的成本效益。它的优点包括:强大的数学、编码和推理能力 大上下文长度(64k) 流利的英语、法语、意大利语、德语和西班牙语在发布公告中查看基准测试[这里](https://mistra ...
WizardLM-2 7B 是微软 AI 最新 Wizard 模型的较小版本。它是最快的,并且在性能上与现有的 10 倍更大的开源领先模型相当。 它是对 Mistral 7B Instruct 的微调,使用与 [WizardLM-2 8x22B](/microsoft/wizardlm-2-8x22 ...
WizardLM-2 8x22B 是微软 AI 最先进的 Wizard 模型。与领先的专有模型相比,它展示了高度竞争的性能,并且始终优于所有现有的最先进的开源模型。 它是 Mixtral 8x22B 的指令微调版本。 要了解有关模型发布的更多信息,[请点击这里](https://wizardlm.github ...
谷歌最新的多模态模型,支持在文本或聊天提示中使用图像和视频。 针对以下语言任务进行了优化:代码生成 文本生成 文本编辑 问题解决 推荐 信息提取 数据提取或生成 AI代理Gemini的使用受限于谷歌的Gemini使用条款。 #multimodal ...
Claude 3 Haiku 是 Anthropic 反应速度最快、体积最小的模型,能够实现近乎即时的响应。快速且准确的定向性能。 查看发布公告和基准测试结果 这里 #multimodal ...
Claude 3 Opus 是 Anthropic 针对高度复杂任务的最强大模型。它拥有顶级的性能、智能、流畅性和理解能力。 查看发布公告和基准测试结果 here #multimodal ...
None ...
该模型目前由 Mistral-7B-v0.2 驱动,并结合了比 Mistral 7B 更“优越”的微调,灵感来自社区的工作。它最适合用于大批量处理任务,在这些任务中,成本是一个重要因素,但推理能力并不是关键。 ...
这是对 Mixtral-8x7b 的 16k 上下文微调。由于大量使用编码数据进行训练,它在编码任务中表现出色,并以其服从性而闻名,尽管缺乏 DPO 调优。 该模型未经过审查,并且去除了对齐和偏见。它需要一个外部对齐层以确保伦理使用。用户被提醒要负责任地使用这个高度合规的模型,具体细节可参见关于未审查模型的博客文 ...
谷歌的旗舰多模态模型,支持在文本或聊天提示中使用图像和视频,以获得文本或代码响应。 请参阅来自 Deepmind 的基准和提示指南。 使用 Gemini 需遵循谷歌的 Gemini 使用条款。 #multi ...
一个由Mistral AI开发的预训练生成稀疏专家混合模型,包含8个专家(前馈网络),总计47B参数。基础模型(未针对指令进行微调) - 请参见Mixtral 8x7B Instruct以获取经过指令微调的模型。 #moe ...
OpenChat 7B 是一个开源语言模型库,采用“C-RLFT(条件强化学习微调)”策略进行了微调,该策略受到离线强化学习的启发。它在没有偏好标签的混合质量数据上进行了训练。对于在 Mistral 7B 上微调的 OpenChat,请查看 OpenChat 7B。 对于在 Llama 8B 上微调的 Op...
OpenChat 7B 是一个开源语言模型库,经过“C-RLFT(条件强化学习微调)”的精细调优——这是一种受离线强化学习启发的策略。它是在没有偏好标签的混合质量数据上进行训练的。对于在 Mistral 7B 上微调的 OpenChat,请查看 OpenChat 7B。 对于在 Llama 8B 上微调的...
A Mythomax/MLewd_13B风格的选定70B模型合并。 一个多模型合并,结合了多个LLaMA2 70B微调模型,用于角色扮演和创意工作。目标是创建一个将创造力与智能相结合的模型,以提升体验。 #merge #uncensored ...
一个野生的7B参数模型,通过mergekit中的新task_arithmetic合并方法合并了多个模型。 合并模型列表:NousResearch/Nous-Capybara-7B-V1.9 HuggingFaceH4/zephyr-7b-beta lemonilia/AshhLimaRP-...
A wild 7B 参数模型,使用 mergekit 的新 task_arithmetic 合并方法合并了多个模型。合并模型列表: NousResearch/Nous-Capybara-7B-V1.9 HuggingFaceH4/zephyr-7b-beta lemonil...
PaLM 2 是谷歌推出的一种语言模型,具备更强的多语言、推理和编码能力。 ...
PaLM 2 针对帮助解决代码相关问题的聊天机器人对话进行了微调。 ...
该模型是GPT-3.5 Turbo的一个变体,针对教学提示进行了调整,并省略了与聊天相关的优化。训练数据:截至2021年9月。 ...
原始 MythoMax-L2-B13 的重创版本,但采用了更新的模型。 #merge ...
原始 MythoMax-L2-B13 的重现试验,但使用了更新的模型。 #merge 这些是 ReMM SLERP 13B 的扩展上下文端点。它们可能具有更高的价格。 ...
Llama 2 13B 的性能最高且最受欢迎的微调之一,具有丰富的描述和角色扮演。 #merge ...