IBM 刚发布了 granite-4.0-tiny-7B-A1B-preview 使用了 Mamba-2 / Transformer 架构。每个 Transformer 块有 9 个 Mamba 块。基本上,Mamba 块有效地捕捉全局上下文,并将其传递给注意力层,以进行更细致的局部上下文解析。

从 MMLU 分数上看感觉不错(MMLU专注日常任务,比如识别门牌号啥的),IBM也 ​​​https://mapp.api.weibo.cn/fx/29150b6943998525fac67af79515fbe6.html
 
 
Back to Top