HPC-Ops от Tencent: библиотека CUDA-операторов для ускорения LLM до 2.22x
Tencent Hunyuan открыла доступ к коду, HPC-Ops – библиотеке операторов производственного уровня для архитектур вывода больших языковых моделей. HPC-Ops ориентирована на низкоуровневые CUDA-ядра для ключевых операторов, таких как Attention, Grouped GEMM и Fused MoE, и предоставляет их через компактные C и Python API для интеграции в существующие стеки вывода.
В своих внутренних сервисах HPC-Ops обеспечивает прирост производительности примерно на 30% по количеству запросов в минуту для моделей Tencent-HY и примерно на 17% для моделей DeepSeek на основных вычислительных картах. Эти улучшения оцениваются на уровне сервиса, отражая кумулятивный эффект более быстрых ядер в реальном конвейере вывода.
Библиотека не стремится заменить существующие фреймворки для обслуживания моделей, а предоставляет ядра и четкие API, которые можно вызывать из систем, которые уже управляют планированием, кешем ключей и значений, пакетной обработкой и транспортом. API разработана для бесшовной интеграции с популярными фреймворками, такими как vLLM и SGLang.
HPC-Ops использует C++ и CUDA с CuTe и CUTLASS в качестве строительных блоков. Ядра написаны в виде небольших примеров, которые также служат современным пособием по CUDA.
По результатам микротестов, HPC-Ops показывает прирост скорости до 2.22x для Attention в режиме декодирования (bf16) и до 2.0x для Attention в режиме декодирования (fp8) по сравнению с FlashInfer, FlashAttention и TensorRT LLM.
Библиотека поддерживает семейства операторов Attention (с поддержкой paged attention), quantized GroupGEMM (с fp8 весами) и quantized Fused MoE (с fp8 весами экспертов), предоставляя поддержку bf16 и fp8.
Основные моменты:
- HPC-Ops – библиотека операторов производственного уровня для LLM inference на NVIDIA SM90, включая H20.
- В продакшене прирост QPM составляет около 30% для моделей Tencent-HY и 17% для DeepSeek.
- Микротесты операторов показывают прирост скорости до 2.22x для bf16 Attention decode.
- Библиотека фокусируется на трех операторах: Attention, quantized GroupGEMM и quantized Fused MoE.
- HPC-Ops разрабатывается как уровень операторов, интегрируемый в существующие фреймворки, такие как vLLM и SGLang.
Репозиторий: https://github.com/Tencent/hpc-ops
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru