Публикация

Исследователи ускорили языковые модели в 8.5 раза без потери качества и это уже в продакшене.

Называется DFlash. Обычное спекулятивное декодирование уже ускоряет инференс, маленькая модель угадывает токены, большая проверяет их разом. Но черновая модель всё равно работает последовательно и сама становится узким местом.

DFlash заменяет её на блочную диффузионную модель которая предсказывает все токены параллельно за один проход. 48.5 токена в секунду превращаются в 415. На той же модели.

Уже интегрирован в vLLM, SGLang и Transformers. Модели для Qwen3, Llama 3.1 и Kimi на HuggingFace.

KV-кэширование - ещё одна обязательная техника для ускорения инференса больших языковых моделей. Вот об этом статья.

Комментарии