【[402星]llm-d:Kubernetes原生高性能分布式LLM推理框架,助力大规模语言模型推理部署。亮点:1. 采用vLLM优化的推理调度器,提升性能;2. 支持解耦式服务,灵活部署;3. 提供独立和共享两种KV缓存方案,优化资源利用】
'Kubernetes-Native Distributed Inference at Scale'
GitHub: ​​​https://mapp.api.weibo.cn/fx/14ef7a3e0705282d8111a2eb0d214a89.html
 
 
Back to Top