Parameters

惊艳来袭！Mini MiniCPM-o 2.6：超越GPT-4o的8B参数多模态LLM！

Rifx.Online
Natural Language Processing , Machine Learning , Technology/Web
20 Jan, 2025

在一项突破性的进展中，Mini CPM-o 在多模态大型语言模型 (LLM) 的世界中引起了轰动。凭借其 8 亿参数架构，它不仅在多个基准测试中超越了 GPT-4o，还在视觉、音频和其他多模态功能上与其相媲美。让我们深入探讨这一激动人心的发布、它的能力、安装过程和使用案例。 MiniCPM-o 2.6: 是什么？ MiniCPM-o 2.6: 是一种先进的多模态 L

DeepSeek V3：超6710亿参数挑战ChatGPT，如何颠覆AI市场？

Rifx.Online
Natural Language Processing , Machine Learning , Ethics
29 Dec, 2024

Ali Shaker- 中国初创公司DeepSeek凭借其大型语言模型DeepSeek V3在全球AI界引起了广泛关注。该模型拥有6710亿参数，声称能够与OpenAI的GPT-4、Meta的Llama 3.1和Claude 3.5 Sonnet等重量级竞争对手抗衡。更引人注目的是

揭开DeepSeek-V3的神秘面纱：如何以超低成本提升大语言模型的推理效率？！

Rifx.Online
Programming , Machine Learning , Natural Language Processing
29 Dec, 2024

介绍 DeepSeek-V3 已成为开源爱好者和企业用户的新重磅产品。该模型由一家中国的人工智能研究公司开发，致力于“开源精神 + 长期主义以实现包容性AGI”，旨在缩小封闭源巨头（如 GPT-4o 和 Claude-Sonnet-3.5\）与开源社区之间的差距。 DeepSeek-V3 采用 Mixture-of-Experts (MoE) 设

DeepSeek V3：超越竞争对手的开源大语言模型技术解析

Rifx.Online
Natural Language Processing , Machine Learning , Data Science
27 Dec, 2024

优于 Claude 3.5 Sonnet、GPT-4o、Llama3.1 405B 年末将至，刚刚，中国的 DeepSeek 发布了其开源模型 DeepSeek-v3，该模型在性能上超越了所有主要竞争者，包括 Claude3.5 Sonnet、GPT-4o、Qwen2.5 Coder 等等。该模型的表现如同怪兽，显然，我们可以说 DeepSeek-V3 是迄今

Metas Llama 3.3：开源大型语言模型的演变

Rifx.Online
Natural Language Processing , Machine Learning , Technology/Web
12 Dec, 2024

Meta 最近发布的 Llama 3.3 代表了大语言模型（LLMs）发展的一个里程碑。它在规模、效率和安全性方面进行了改进，同时保持开源，进一步强化了 Meta 致力于构建开放 AI 生态系统的承诺。以下是对 Llama 3.3 的功能、创新和应用的深入探讨。 ![](https://wsrv.nl/?url=https://cdn-images-1.readmedium.c

阿里巴巴 QwQ：比 OpenAI-o1 更适合推理？

Rifx.Online
Programming , Machine Learning , Natural Language Processing
30 Nov, 2024

32b 开源模型超越 o1 mini，并与 o1-preview 竞争几天前，阿里巴巴发布了 Marco-o1，一个 7b 推理模型。现在，他们又发布了一个改进版本，称为 QwQ，甚至超越了 OpenAI-o1 mini，并与 o1-preview 持平。最棒的是什么？它是开源的什么是 Alibaba QwQ-32b-preview？ QwQ-32B-

史上最雄心勃勃的人工智能加密项目来了

Rifx.Online
Technology , Machine Learning , Blockchain
16 Nov, 2024

AI & 区块链：天作之合，还是骗局？现代人工智能的奠基人之一希望利用区块链训练全球最大的开源大型语言模型（LLM），其规模几乎是 Llama 3.1 405B 的四倍，后者通常被认为是最佳的开放 LLM。在你将这个标题视为欺诈性炒作之前，请注意，这一目标的提出者正是 Illia Polosukhin，他是“Attention is All you Need”

满足 Qwen2.5-Coder-32B-Instruct -Coder - 开源比 gpt4o 更好

Rifx.Online
Programming , Generative AI , Data Science
14 Nov, 2024

认识 Qwen2.5-Coder-32B-Coder，您新的 AI 编码伙伴您是否曾希望编码变得更简单、更快速，甚至更有趣？那么，准备好迎接您的新 AI 编码朋友 Qwen2.5-Coder。Qwen2.5-Code 专门开发了这个模型，作为一个尖端语言模型，以简化您的编码体验。想象一下，拥有一个知识渊博的助手，可以为您编写代码、调试、解释复杂概念，并处理多种语言。感兴

SmolLM2：Qwen2.5 和 Llama 3.2 的最佳替代品

Rifx.Online
Technology , Machine Learning , Data Science
10 Nov, 2024

而且它是完全开放的！ Hugging Face 加大了对 SmolLM 计划的投入。他们发布了 SmolLM2：1.7B、360M 和 135M 模型，训练于 11T 令牌（相比 SmolLM 的 1T）。他们发布了基础版和指导版：Hugging Face Collection: [SmolLM2](https://huggingface.co/collections/

Google 发布 Gemma — 轻量级开源模型

Rifx.Online
Natural Language Processing , Programming , Chatbots
29 Oct, 2024

在短短一周内，世界见证了两家科技巨头带来的最具突破性的AI进展。OpenAI推出了令人惊叹的AI视频生成器Sora，而谷歌则揭晓了其[Gemini 1.5模型](https://generativeai.pub/google-releases-gemini-1-5-with-1m-context-window-