acshame
00:58 · 2025年6月19日 · 周四
https://x.com/karminski3/status/1935140410906787905?t=hJqP-1W5WHoOrXYd2k-LWQ&s=35
X (formerly Twitter)
karminski-牙医 (@karminski3) on X
Unsloth 刚刚发布了一个强化学习小教程
教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。
地址: https://t.co/BDEfR0zbEk
Home
Powered by
BroadcastChannel
&
Sepia