08:32 · Apr 19, 2025 · Sat https://x.com/karminski3/status/1913370960654483502?t=9LS5rPgxnIJpXywUBNr76Q&s=35 X (formerly Twitter) karminski-牙医 (@karminski3) on X Google 刚刚发布了 QAT(量化感知训练) 版本的 Gemma-3-27B, 该模型在保持与半精度相似质量的同时,使用比 1/3 更少的内存。4bit 量化 只有16G左右,非常适合本地部署。目前所有主流的单机推理框架都支持运行 Gemma-3了,包括 Ollama,LM Studio,MLX,Gemma.cpp,llama.cppMLX 版本地址: