点击上方?公众号?关注我✅

你好啊，我是雨飞，见字如面。感谢阅读，期待我们下一次的相遇。

OpenAI第二天的发布会，持续了20分钟，比昨天多了5分钟，真感动。

要点总结，提出了一种强化微调的方法，经过强化微调的o1 mini，可以全面超越了当今最强的基础模型o1。很遗憾，属于期货，25年对外发布。

在视频里，我们能看到，可以使用OpenAI的微调界面直接选择强化微调的模式去训练模型就可以，使用起来还是蛮方便的。

视频中提供了一些训练样例，包括提示词如何构造以及答案是什么都很详细。

训练完成后，会显示这个模型的详细信息。

可以看到经过微调之后的模型，性能还是非常好的。

折线图会看的更清晰一些。微调之后的o1-mini效果甚至优于没有微调的o1模型。

最后，总结下，这项技术非常强大，但是25年才能用上。

参考资料

https://openai.com/form/rft-research-program/ https://x.com/OpenAI/status/1865091561912164499 https://arxiv.org/pdf/2401.08967

❤️常驻小尾巴❤️

加微 1060687688，备注「公众号」，送你一份「AI工具大全与变现指南」

推荐阅读

「雨飞同行」这是雨飞的介绍（第8版，交个朋友，限时送福利）