【[402星]llm-d：Kubernetes原生高性能分布式LLM推理框架，助力大规模语言模型推理部署

【[402星]llm-d：Kubernetes原生高性能分布式LLM推理框架，助力大规模语言模型推理部署。亮点：1. 采用vLLM优化的推理调度器，提升性能；2. 支持解耦式服务，灵活部署；3. 提供独立和共享两种KV缓存方案，优化资源利用】
'Kubernetes-Native Distributed Inference at Scale'
GitHub: https://mapp.api.weibo.cn/fx/14ef7a3e0705282d8111a2eb0d214a89.html