18:50 · May 18, 2025 · Sun https://weibo.com/2169039837/PrJHNvYOQ Weibo Unsloth 刚刚发布了他们的 GRPO 的新互动... 来自karminski-牙医 - 微博 Unsloth 刚刚发布了他们的 GRPO 的新互动教程 (ipynb notebook)只需要跟着教程一步步来就能微调 Qwen3-Base 并且开启思考模式,并且是 GRPO 的所以可以几乎让模型无监督学习地址:colab.research.google.com...