欢迎来到 AIBrix#
AIBrix 是一个开源项目,旨在提供构建可扩展 GenAI 推理基础设施的基本构建块。AIBrix 提供了一个云原生解决方案,针对部署、管理和扩展大型语言模型 (LLM) 推理进行了优化,并专为企业需求量身定制。
主要功能
LLM 网关和路由:高效管理和引导跨多个模型和副本的流量。
高密度 LoRA 管理:为模型的轻量级、低秩适应提供简化支持。
分布式推理:可扩展架构,可处理跨多个节点的大型工作负载。
LLM 应用定制自动扩缩器:根据实时需求动态扩缩推理资源。
统一 AI 运行时:一个多功能边车,支持指标标准化、模型下载和管理。
异构 GPU 推理:使用异构 GPU 进行具有成本效益的 SLO 驱动型 LLM 推理。
GPU 硬件故障检测:主动检测 GPU 硬件问题。
KVCache 卸载和跨引擎 KV 复用:高性能 KVCache 卸载框架,同时支持简单 KV 卸载和跨引擎 KV 复用。
基准测试工具:一个用于衡量推理性能和资源效率的工具。
文档#
入门
用户手册
生产就绪