acshame
16:32 · 2025年4月19日 · 周六
https://x.com/karminski3/status/1913370960654483502?t=9LS5rPgxnIJpXywUBNr76Q&s=35
X (formerly Twitter)
karminski-牙医 (@karminski3) on X
Google 刚刚发布了 QAT(量化感知训练) 版本的 Gemma-3-27B, 该模型在保持与半精度相似质量的同时,使用比 1/3 更少的内存。4bit 量化 只有16G左右,非常适合本地部署。
目前所有主流的单机推理框架都支持运行 Gemma-3了,包括 Ollama,LM Studio,MLX,Gemma.cpp,llama.cpp
MLX 版本地址:
Home
Powered by
BroadcastChannel
&
Sepia