你好啊,我是雨飞,见字如面。感谢阅读,期待我们下一次的相遇。

OpenAI第二天的发布会,持续了20分钟,比昨天多了5分钟,真感动。
要点总结,提出了一种强化微调的方法,经过强化微调的o1 mini,可以全面超越了当今最强的基础模型o1。很遗憾,属于期货,25年对外发布。
在视频里,我们能看到,可以使用OpenAI的微调界面直接选择强化微调的模式去训练模型就可以,使用起来还是蛮方便的。
视频中提供了一些训练样例,包括提示词如何构造以及答案是什么都很详细。
训练完成后,会显示这个模型的详细信息。
可以看到经过微调之后的模型,性能还是非常好的。
折线图会看的更清晰一些。微调之后的o1-mini效果甚至优于没有微调的o1模型。
最后,总结下,这项技术非常强大,但是25年才能用上。
参考资料
https://openai.com/form/rft-research-program/ https://x.com/OpenAI/status/1865091561912164499 https://arxiv.org/pdf/2401.08967
❤️常驻小尾巴❤️
加微 1060687688,备注「公众号」,送你一份「AI工具大全与变现指南」
