Reinforcement learning

OpenAI: o1

OpenAI 最新且最强大的模型系列 o1 旨在在回应之前花更多时间思考。o1 模型系列通过大规模强化学习进行训练，以利用思维链进行推理。 o1 模型针对数学、科学、编程和其他与 STEM 相关的任务进行了优化。它们在物理、化学和生物学的基准测试中始终表现出博士级的准确性。有关更多信息，请参阅发布公告. ...

OpenAI 195.31K context $15/M input tokens $60/M output tokens $0.022/M image tokens