IBM 刚发布了 granite-4.0-tiny-7B-A1B-preview 使用了 Mamba-2 / Transformer 架构。每个 Transformer 块有 9 个 Mamba 块。基本上,Mamba 块有效地捕捉全局上下文,并将其传递给注意力层,以进行更细致的局部上下文解析。
从 MMLU 分数上看感觉不错(MMLU专注日常任务,比如识别门牌号啥的),IBM也 https://mapp.api.weibo.cn/fx/29150b6943998525fac67af79515fbe6.html
从 MMLU 分数上看感觉不错(MMLU专注日常任务,比如识别门牌号啥的),IBM也 https://mapp.api.weibo.cn/fx/29150b6943998525fac67af79515fbe6.html