大模型:课程学习与自适应强化学习

分享主题

《大模型后训练优化:训练加速、课程学习与难度感知强化学习》

 

分享大纲:

1. 大模型训练加速技术进化

2. Light-R1 低成本复线强推理模型

3. 强化学习大幅提升复杂指令遵循能力


分享讲师:

文亮 奇虎 360    智脑团队资深算法专家

大模型后训练优化:训练加速、课程学习与难度感知强化学习.pdf




请使用浏览器的分享功能分享到微信等