详细介绍vLLM 是面向大语言模型推理的高性能开源框架,通过 PagedAttention 等机制提升吞吐和显存利用率,常用于自托管模型服务。功能特性PagedAttentionOpenAI 兼容接口批处理推理优化相关公司vLLM Project