跳到主要内容
vLLM
,高度优化的纯Python服务框架,可以扩展与OpenAI兼容的API。
其他推理引擎替代方案包括
TensorRT LLM
和
TGI
.
您还可以利用特定的工具来促进基础设施管理,例如