OpenAI Day2 强化微调


点击上方?公众号?关注我✅

你好啊,我是雨飞,见字如面感谢阅读,期待我们下一次的相遇。

OpenAI第二天的发布会,持续了20分钟,比昨天多了5分钟,真感动。

要点总结,提出了一种强化微调的方法,经过强化微调的o1 mini,可以全面超越了当今最强的基础模型o1。很遗憾,属于期货,25年对外发布。

在视频里,我们能看到,可以使用OpenAI的微调界面直接选择强化微调的模式去训练模型就可以,使用起来还是蛮方便的。


视频中提供了一些训练样例,包括提示词如何构造以及答案是什么都很详细。


训练完成后,会显示这个模型的详细信息。


可以看到经过微调之后的模型,性能还是非常好的。

折线图会看的更清晰一些。微调之后的o1-mini效果甚至优于没有微调的o1模型。


最后,总结下,这项技术非常强大,但是25年才能用上。


参考资料 


https://openai.com/form/rft-research-program/ https://x.com/OpenAI/status/1865091561912164499 https://arxiv.org/pdf/2401.08967



❤️常驻小尾巴❤️

加微 1060687688,备注「公众号」,送你一份「AI工具大全与变现指南

推荐阅读

「雨飞同行」这是雨飞的介绍(第8版,交个朋友,限时送福利)

请使用浏览器的分享功能分享到微信等