转变生成式AI：5项创新使AI在文本生成中成为推理强者

Rifx.Online
Generative AI , Large Language Models , AI Research
08 Mar, 2025

生成式人工智能：从文本生成到认知机器

生成式人工智能 (GenAI) 已经不仅仅是生成文本，而是关于思考。大型语言模型 (LLM) 的演进已经将我们从简单的词语预测带到了复杂的推理、战略规划，甚至自我完善。如今，前沿研究正在将这些模型转变为认知机器，它们不仅仅是鹦鹉学舌地重复信息，而是批判性地评估、辩论和完善自己的想法。这种转变意义重大，它推动人工智能更接近于模仿类似人类的认知，而不是仅仅成为一个统计上的鹦鹉。

人工智能真的可以“思考”吗？哲学困境

人工智能中最深刻的问题之一是这些模型是否真正具备推理能力，或者它们仅仅是复杂的模式匹配器。Wang 等人 (2023) 的一项研究通过让 LLM 参与类似辩论的互动来挑战人工智能“寻求真理”的观点。关键的见解是什么？虽然 LLM 可以构建逻辑论证，但它们仍然容易受到操纵。它们会被不正确但自信地提出的论点说服，这暴露了它们推理能力的严重弱点。

深刻的哲学见解：

“我们不仅仅想要能够生成信息的人工智能；我们想要能够坚持自己的信念，挑战有缺陷的逻辑，并实时完善其推理的人工智能。但机器真的可以‘相信’任何事情吗？或者我们仅仅是在自欺欺人地认为它做到了？”

这种困境是人工智能意识辩论的核心。如果 LLM 可以被训练来抵抗操纵并始终如一地捍卫真理，这是否构成一种智能形式？或者这仅仅是另一种认知错觉？

修复有缺陷的推理：逐步评估的兴起

如今困扰人工智能模型的一个主要问题是它们能够为了错误的理由得出正确的答案。Hao 等人 (2024) 引入的 AutoRace 框架通过评估推理链，而不仅仅是最终答案来改变这一点。这种方法可以彻底改变人工智能在法律推理、财务审计，甚至医学诊断中的应用。

缺失的要素：自我修正和动态学习

当前的 LLM 缺乏以结构化方式动态完善自身输出的能力。这就是 Stepwise Outcome-Based Reward Models (SORMs) 发挥作用的地方。通过集成持续反馈循环，像 LLaMA-2 这样的模型在复杂推理任务上的准确性提高了 12% 以上。

想象一下，一个法律人工智能助手可以逐步完善其法律论点，随着时间的推移不断改进，而不是仅仅根据过去的案例输出最具统计学意义的法律论点。这就是我们正在走向的未来。

机器会像人类一样犯错吗？评论模型的作用

你会相信一个从不承认错误的 AI 吗？评论模型的概念引入了一个额外的人工智能层，用于实时评估 LLM 的输出。Xi 等人 (2024) 的研究表明，这种方法显着提高了在需要深度推理的任务（如数学和科学问题解决）中的性能。

博弈论与人工智能的结合：多智能体推理的未来

如今人工智能研究中最令人兴奋的领域之一是战略推理。微软的研究人员现在正在训练 LLM 像谈判和多智能体决策方面的专家策略师一样行事。人工智能模型现在不仅学习如何生成最佳回应，还学习如何在竞争环境中预测其他人工智能智能体的行为。

想想人工智能驱动的对冲基金，它们预测市场趋势不是基于历史数据，而是基于其他人工智能驱动的交易机器人将如何对经济新闻做出反应。这是下一个前沿领域。

偏好树：教导人工智能如何更好地“思考”

研究人员现在引入了偏好树，这是一种教导 LLM 动态权衡不同推理路径的方法。这会产生更细微、更像人类的决策过程。像 EURUS-70B 这样的开源模型现在在高级推理任务上优于 GPT-3.5 Turbo。

一个供研究人员测试 LLM 中偏好树的长的代码片段：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

## Load the model
tokenizer = AutoTokenizer.from_pretrained("openai/eurus-70b")
model = AutoModelForCausalLM.from_pretrained("openai/eurus-70b")

## Define preference tree function
def evaluate_reasoning_path(input_text):
    input_ids = tokenizer.encode(input_text, return_tensors='pt')
    with torch.no_grad():
        output = model.generate(input_ids, max_length=500, temperature=0.7, num_return_sequences=3)
    return [tokenizer.decode(o, skip_special_tokens=True) for o in output]

## Test with a reasoning prompt
reasoning_prompt = "Explain why quantum mechanics and general relativity are incompatible."
responses = evaluate_reasoning_path(reasoning_prompt)
for i, response in enumerate(responses):
    print(f"Reasoning Path {i+1}:\n{response}\n")