acshame

Google 刚刚发布了 QAT(量化感知训练) 版本的 Gemma-3-27B, 该模型在保持与半精度相似质量的同时，使用比 1/3 更少的内存。4bit 量化只有16G左右，非常适合本地部署。

目前所有主流的单机推理框架都支持运行 Gemma-3了，包括 Ollama，LM Studio，MLX，Gemma.cpp，llama.cpp

MLX 版本地址：