Ethics

人工智能真的能思考吗？DeepSeek R1的惊人揭秘！

人工智能真的能思考吗？DeepSeek R1的惊人揭秘！

Rifx.Online
Artificial Intelligence , Ethics , Machine Learning
20 Jan, 2025

想象一下，一台电脑不仅仅是进行数字运算和遵循指令，而是实际上像你一样逐步“思考”事情。这就是“推理模型”的令人兴奋的承诺——一种正在改变游戏规则的新型人工智能。而引领这一潮流的是DeepSeek的R1，这是一款来自中国研究公司的强大AI，它不仅挑战了OpenAI等大牌，还让我们得以窥探其内部运作的机制。不仅仅是计算器：推理人工智能是如何工作的多年来，人工智能以其翻译语言、识

构建面向人类的代理系统：超级智能的心理学和社会学

构建面向人类的代理系统：超级智能的心理学和社会学

Rifx.Online
Ethics , Natural Language Processing , Autonomous Systems
19 Jan, 2025

Soundcloud 播客执行摘要“权力在于将人类的思想撕成碎片，然后按照你自己选择的新形状将它们重新组合。”

扎克伯格预测：到 2025 年，人工智能将像工程师一样编码

扎克伯格预测：到 2025 年，人工智能将像工程师一样编码

Rifx.Online
Programming , Natural Language Processing , Ethics
14 Jan, 2025

在技术以惊人速度发展的时代，Meta的创始人马克·扎克伯格做出了一个大胆的预测：到2025年，人工智能将像中级工程师一样进行编码。这一声明在科技巨头和初创企业的走廊中回响，描绘了一个未来的图景，在这个图景中，人工智能不仅仅是开发者工具箱中的一个工具，而是工程团队的全职成员。 AI在编码中的曙光设想一个世界，在这个世界里，编码的琐碎任务由一个与普通中级工程师同样出色的AI系统来

70% OFF

Qwen QwQ-32B-Preview

介绍 QwQ-32B-Preview 是由 Qwen 团队开发的实验研究模型，旨在提升 AI 推理能力。作为预览版本，它展示了有前景的分析能力，但也存在几个重要的局限性：语言混合和代码切换：该模型可能会意外混合语言或在语言之间切换，从而影响响应的清晰度。递归推理循环：该模型可能会进入循环推理模式，导致响应冗长而没有结论性答案。 **安全和...

Qwen 32K context $0.12/M input tokens $0.18/M output tokens

o3崛起：AGI辩论的新转折点？探索突破与挑战

o3崛起：AGI辩论的新转折点？探索突破与挑战

本周，人工智能社区围绕一个新前沿展开了热烈讨论：OpenAI的“o3”，这一突破性模型将人工通用智能（AGI）的话题提升到了新的高度。研究人员和行业人士正在辩论，o3的卓越成就——例如在ARC-AGI基准测试中得分87.5%（超越人类平均水平85%）以及在Codeforces上获得2727的评分（使其跻身全球前200+程序员之列）——是否标志着AGI的到来，还是仅仅代表

OpenAI 的 O1 模型：对人工智能未来的详细探索

OpenAI 的 O1 模型：对人工智能未来的详细探索

Rifx.Online
Natural Language Processing , Machine Learning , Technology/Web
12 Dec, 2024

引言人工智能在过去的十年中迅速发展，导致了自然语言处理（NLP）、机器学习和多模态应用的突破。OpenAI 的 O1 模型体现了这种创新，提供了超越传统 AI 模型的能力。O1 不仅仅是一个工具；它是一个革命性的框架，带来了先进的语言理解、多模态集成和实时适应能力。本综合指南深入探讨了 OpenAI 的 O1 模型的细节、应用、优势、局限性以及如何优化相关内容以提高搜索引擎可见

baichuan4

Baichuan4 模型介绍 Baichuan4 是一款先进的人工智能语言模型，旨在增强自然语言理解和生成能力。该模型基于前沿的深度学习技术，适用于从对话AI和内容创作到数据分析和客户支持等多种应用场景。主要特点：性能提升：Baichuan4 采用先进算法优化处理效率，实现更快的响应时间和更高质量的互动体验。多语言支持：该模型能够理解和...

Baichuan 31.25K context $14.3/M input tokens $14.3/M output tokens

Meta: LlamaGuard 2 8B

该安全模型具有8B参数，并基于Llama 3系列。与其前身LlamaGuard 1一样，它可以进行提示和响应分类。 LlamaGuard 2的功能类似于普通的LLM，生成文本以指示给定的输入/输出是否安全。如果被认为不安全，它还会分享违反的内容类别。为了获得最佳效果，请使用原始提示输入或` ...

Meta Llama 8K context $0.18/M input tokens $0.18/M output tokens

Llama 3 Lumimaid 70B

The NeverSleep团队回来了，带来了基于他们精心挑选的角色扮演数据训练的Llama 3 70B微调模型。Lumimaid在eRP和RP之间取得了平衡，旨在在必要时保持严肃，但又不受限制。为了增强其整体智能和聊天能力，约40%的训练数据并非角色扮演。这提供了广泛的知识供访问，同时仍然保持角色扮演作为主要优势。使用此模型须遵循[Meta的可接受使用政策](https://llama ...

Meta Llama 8K context $3.375/M input tokens $4.5/M output tokens

Cohere: Command R+

command-r-plus-08-2024 是 Command R+ 的更新，与之前的 Command R+ 版本相比，吞吐量提高了大约 50%，延迟降低了 25%，同时硬件占用保持不变。在此处阅读发布帖子 here。 ...

Cohere 125K context $2.85/M input tokens $14.25/M output tokens

Cohere: Command

Command 是一个遵循指令的对话模型，能够以更高的质量、更可靠地执行语言任务，并且比我们的基础生成模型具有更长的上下文。使用此模型须遵循 Cohere 的 Acceptable Use Policy. ...

Cohere 4K context $0.95/M input tokens $1.9/M output tokens

Qwen: QwQ 32B Preview

QwQ-32B-Preview 是一个专注于 AI 推理能力的实验研究模型，由 Qwen 团队开发。作为预览版本，它展示了有前景的分析能力，但也存在几个重要的限制：语言混合和代码切换：模型可能会意外地混合语言或在语言之间切换，影响响应的清晰度。递归推理循环：模型可能会进入循环推理模式，导致响应冗长而没有明确的答案。安全和伦理考虑：模型需要增强安全...

Qwen 32K context $0.15/M input tokens $0.6/M output tokens

Meta: Llama 3.1 405B (base)

Meta最新发布的模型系列（Llama 3.1）推出了多种尺寸和版本。这是基础的405B预训练版本。与领先的闭源模型相比，它在人工评估中表现出色。使用此模型须遵循Meta的可接受使用政策。 ...

Meta Llama 128K context $2/M input tokens $2/M output tokens

FREE

Meta: Llama 3.2 11B Vision Instruct (free)

Text image 2 text

Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型，旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色，弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练，能够在复杂的高精度图像分析中表现良好。它将视觉理解与语言处理相结合的能力，使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案，例如内容创作、A ...

Meta Llama 128K context $0 input tokens $0 output tokens $0.079/K image tokens

Meta: Llama 3.2 11B Vision Instruct

Text image 2 text

Llama 3.2 11B Vision 是一个具有 110 亿参数的多模态模型，旨在处理结合视觉和文本数据的任务。它在图像描述和视觉问答等任务中表现出色，弥合了语言生成与视觉推理之间的差距。该模型在一个庞大的图像-文本对数据集上进行了预训练，能够在复杂的高精度图像分析中表现良好。它将视觉理解与语言处理相结合的能力，使其成为需要全面视觉-语言 AI 应用的行业的理想解决方案，例如内容创作、A ...

Meta Llama 128K context $0.055/M input tokens $0.055/M output tokens $0.079/K image tokens

Lumimaid v0.2 8B

Lumimaid v0.2 8B 是对 Llama 3.1 8B 的微调，与 Lumimaid v0.1 相比，在数据集方面有了“巨大的提升”。不规范的聊天输出已被清除。使用此模型需遵循 Meta 的可接受使用政策。 ...

Meta Llama 128K context $0.188/M input tokens $1.125/M output tokens

人工智能代理产品经理和人工智能代理工程师的崛起

人工智能代理产品经理和人工智能代理工程师的崛起

想象一个未来，生成式AI不仅仅是响应查询，而是主动解决商业各个方面的复杂问题。这不是科幻小说，而是生成式AI代理迅速逼近的现实。这些代理有望彻底改变公司的运营，并激发一波新的创新，从简化供应链到优化产品开发，再到转变客户互动。在过去一年多的时间里，我一直在构建生成式AI应用和代理，亲眼见证了这些技术如何深刻重塑商业流程。AI的潜力巨大，从以空前高效处理客户查询的支持代理，到推动商业运

OpenAI GPT-5：预计 2025 年将实现博士级智能

OpenAI GPT-5：预计 2025 年将实现博士级智能

Rifx.Online
Machine Learning , Ethics , Data Science
01 Nov, 2024

经过几个月的猜测，OpenAI终于揭示了备受期待的GPT-5的详细信息。最初预计在2024年发布，但其发布时间已推迟至2025年末或2026年初。OpenAI的首席技术官Mira Murati在与达特茅斯工程学院的采访中分享了有关这个新版本的能力和潜力的见解。以下是您需要知道的一切。智力的量子飞跃 Murati 将之前的 GPT 版本与不同水平的人类智力进行比较。GPT-

Lumimaid v0.2 70B

Lumimaid v0.2 70B 是对 Llama 3.1 70B 的微调，与 Lumimaid v0.1 相比，在数据集方面有了“巨大的提升”。不合格的聊天输出已被清除。使用此模型须遵循 [Meta 的可接受使用政策](https://llama.meta.com/llama3/use ...

Neversleep 128K context $3.375/M input tokens $4.5/M output tokens

Ministral 8B

Ministral 8B 是一个具有 8B 参数的模型，采用独特的交错滑动窗口注意力模式，以实现更快、更节省内存的推理。该模型专为边缘使用案例设计，支持最长 128k 的上下文长度，并在知识和推理任务中表现出色。它在低于 10B 的类别中优于同类产品，非常适合低延迟、注重隐私的应用。 ...

Mistralai 125K context $0.1/M input tokens $0.1/M output tokens

Nvidia: Llama 3.1 Nemotron 70B Instruct

NVIDIA的Llama 3.1 Nemotron 70B是一个旨在生成精确和有用响应的语言模型。利用Llama 3.1 70B架构和基于人类反馈的强化学习（RLHF），它在自动对齐基准测试中表现出色。该模型专为需要高准确性以提供帮助和生成响应的应用而设计，适合处理多个领域的多样 ...

Nvidia 128K context $0.35/M input tokens $0.4/M output tokens

Lumimaid v0.2 8B

Lumimaid v0.2 8B 是对 Llama 3.1 8B 的微调，相较于 Lumimaid v0.1，数据集有了“巨大的提升”。不当的聊天输出已被清除。使用此模型须遵循 [Meta 的可接受使用政策](https://llama.meta.com/llama3/use-policy/ ...

Neversleep 128K context $0.188/M input tokens $1.125/M output tokens

Cohere: Command R+ (08-2024)

command-r-plus-08-2024 是 Command R+ 的更新，与之前的 Command R+ 版本相比，吞吐量提高了大约 50%，延迟降低了 25%，同时保持相同的硬件占用。在 [这里](https://docs.cohere.com/changelog/command-gets-refresh ...

Cohere 125K context $2.375/M input tokens $9.5/M output tokens

Meta: Llama 3.1 70B Instruct

Meta最新发布的模型类别（Llama 3.1）推出了多种尺寸和版本。这个70B的指令调优版本针对高质量对话用例进行了优化。在人工评估中，它与领先的闭源模型相比表现出色。使用该模型需遵循Meta的可接受使用政策。 ...

Meta llama 128K context $0.3/M input tokens $0.3/M output tokens

Meta: Llama 3.1 8B Instruct

Meta最新发布的模型系列（Llama 3.1）推出了多种尺寸和版本。这个8B指令调优版本快速且高效。与领先的闭源模型相比，它在人工评估中表现出色。使用此模型需遵循Meta的可接受使用政策。 ...

Meta llama 128K context $0.055/M input tokens $0.055/M output tokens

Qwen 2 7B Instruct

Qwen2 7B 是一个基于变换器的模型，擅长语言理解、多语言能力、编码、数学和推理。它具有 SwiGLU 激活、注意力 QKV 偏置和组查询注意力。它在大量数据上进行预训练，并经过监督微调和直接偏好优化。有关更多详细信息，请参阅此博客文章和 [GitHub 仓库](https ...

Qwen 32K context $0.054/M input tokens $0.054/M output tokens

Qwen 2 7B Instruct (free)

Qwen2 7B 是一个基于变换器的模型，在语言理解、多语言能力、编码、数学和推理方面表现出色。它具有 SwiGLU 激活、注意力 QKV 偏置和组查询注意力。它在大量数据上进行了预训练，并进行了监督微调和直接偏好优化。有关更多详细信息，请参见这篇博客文章和 [GitHub 仓 ...

Rifx.Online 8K context $0 input tokens $0 output tokens

Dolphin 2.9.2 Mixtral 8x22B 🐬

Dolphin 2.9 旨在进行指令跟随、对话和编码。该模型是 Mixtral 8x22B Instruct 的微调版本。它具有 64k 的上下文长度，并使用 ChatML 模板进行了 16k 序列长度的微调。该模型是 [Dolphin Mixtral 8x7B](/cognitivecom ...

Cognitivecomputations 64K context $0.9/M input tokens $0.9/M output tokens

Dolphin 2.6 Mixtral 8x7B 🐬

这是对 Mixtral-8x7b 的 16k 上下文微调。由于大量使用编码数据进行训练，它在编码任务中表现出色，并以其服从性而闻名，尽管缺乏 DPO 调优。该模型未经过审查，并且去除了对齐和偏见。它需要一个外部对齐层以确保伦理使用。用户被提醒要负责任地使用这个高度合规的模型，具体细节可参见关于未审查模型的博客文 ...

Cognitivecomputations 32K context $0.5/M input tokens $0.5/M output tokens