acshame
08:22 · 2025年4月4日 · 周五
https://x.com/karminski3/status/1907946719343514027?t=Mqj3h4XUCSfV4DX0oGuUyw&s=35
X (formerly Twitter)
karminski-牙医 (@karminski3) on X
开源大模型防火墙来了!——Wisent-Guard
这个框架能过滤大模型的输出,它的原理并不是简单的后置过滤(例如文本匹配敏感词)。而是会从基于词汇名单的潜在空间,创建激活向量或分类器,然后再模型的推理过程中监控模型激活。一旦发现触发了需要过滤的激活模式就会阻止模型继续输出。
Home
Powered by
BroadcastChannel
&
Sepia