Исследователи ускорили языковые модели в 8.5 раза без потери качества и это уже в продакшене.
Называется DFlash. Обычное спекулятивное декодирование уже ускоряет инференс, маленькая модель угадывает токены, большая проверяет их разом. Но черновая модель всё равно работает последовательно и сама становится узким местом.
DFlash заменяет её на блочную диффузионную модель которая предсказывает все токены параллельно за один проход. 48.5 токена в секунду превращаются в 415. На той же модели.
Уже интегрирован в vLLM, SGLang и Transformers. Модели для Qwen3, Llama 3.1 и Kimi на HuggingFace.
KV-кэширование - ещё одна обязательная техника для ускорения инференса больших языковых моделей. Вот об этом статья.
Комментарии
Комментариев пока нет. Будьте первым!