IBM 刚发布了 granite-4.0-tiny-7B-A1B-preview 使用了 Mamba-2 / Transformer 架构

IBM 刚发布了 granite-4.0-tiny-7B-A1B-preview 使用了 Mamba-2 / Transformer 架构。每个 Transformer 块有 9 个 Mamba 块。基本上，Mamba 块有效地捕捉全局上下文，并将其传递给注意力层，以进行更细致的局部上下文解析。

从 MMLU 分数上看感觉不错（MMLU专注日常任务，比如识别门牌号啥的），IBM也 https://mapp.api.weibo.cn/fx/29150b6943998525fac67af79515fbe6.html