v

vLLM

高吞吐大语言模型推理与服务框架

LLM 推理模型服务高吞吐

详细介绍

vLLM 是面向大语言模型推理的高性能开源框架，通过 PagedAttention 等机制提升吞吐和显存利用率，常用于自托管模型服务。

功能特性

PagedAttention
OpenAI 兼容接口
批处理推理优化

相关公司

vLLM Project

Related Tools

相关工具