首页Tool Intelligence / AI 工程化

vLLM

高吞吐大语言模型推理与服务框架

LLM 推理模型服务高吞吐

详细介绍

vLLM 是面向大语言模型推理的高性能开源框架,通过 PagedAttention 等机制提升吞吐和显存利用率,常用于自托管模型服务。

功能特性

  • PagedAttention
  • OpenAI 兼容接口
  • 批处理推理优化

相关公司

vLLM Project