
推理能力大幅增强,并大幅提升推理和RL 算力需求正如我们此前路演中反复强调,OpenAI与本周发布o1系列模型(此前开发代码为草莓)大幅增强推理能力,并宣布新的Scling范式:通过RL解锁Test time compute(推理时间)。北京时间9月13日1点,OpenAI宣布发布o1系列模型,o1-preview和o1-mini模型现已立即可用。并还分享了我们(尚未最终确定的)o1模型的评估结果,以向世界展示这不仅仅是一次性的改进 为这是一种新的扩展范式,OpenAI表示,o1 通过强化学习训练,在回应之前通过私密的思维链进行"思考"。它思考的时间越长,在推理任务上的表现就越好。这开辟了一个新的扩展维度。不再受预训练的限制。并现在也可以扩展推理计算能力,来获得强得多的能力。随着强化学习和推理的算力提高,模型能力也能提高,在实际推理时采用了CoT,但OpenAI尚未实际公布其具体Token与推理方式组成。o1的实际表现能力如何?在复杂任务上能力大幅超越OpenAI此前模型乃至人类平均水平。例如o1-preview在数学竞赛、代码竞赛、PHD入学考试上均能获得参赛者/专家前20%分位乃至更高的水平。而gpt4o在数学、代码竞赛仅能获得后10%分位。同时,在文字翻译等简单任务上,目前版本o1并未表现出高出gpt4o的能力。如何看待o1的成本?目前,o1-preview已经对于ChtGPT付费订阅Plus等用户开放,限制为一周30使用,约为4o七分之一,o1mini50次使用。API尚只能试用,且尚未定价。欢迎联系 天风海外 孔蓉/李泽宇 作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。