acshame
02:50 · 2025年5月19日 · 周一
https://weibo.com/2169039837/PrJHNvYOQ
Weibo
Unsloth 刚刚发布了他们的 GRPO 的新互动... 来自karminski-牙医 - 微博
Unsloth 刚刚发布了他们的 GRPO 的新互动教程 (ipynb notebook)
只需要跟着教程一步步来就能微调 Qwen3-Base 并且开启思考模式,并且是 GRPO 的所以可以几乎让模型无监督学习
地址:colab.research.google.com...
Home
Powered by
BroadcastChannel
&
Sepia