Китайская исследовательская лаборатория DeepSeek объявила о выходе DSpark — открытого фреймворка спекулятивного декодирования. Новый инструмент разработан для существенного ускорения инференса больших языковых моделей (LLM) без изменения качества генерируемого контента.
Вместе с DSpark компания опубликовали полноценный инструментарий DeepSpec, содержащий готовые веса и инфраструктуру для работы с популярными открытыми моделями.
Как работает DSpark и результаты тестов
Технология спекулятивного декодирования решает одну из ключевых проблем современных LLM — медленный посимвольный вывод (генерацию токенов). DSpark использует легкую и быструю «черновую» модель (draft model) для генерации блоков текста, которые затем проверяются основной, тяжелой «целевой» моделью (target model) за один прямой проход нейросети.
В реальных условиях эксплуатации на моделях серии DeepSeek-V4 применение DSpark позволило увеличить скорость генерации на 60–85% на одного пользователя. При высоких пиковых нагрузках пропускная способность серверов возрастала в несколько раз благодаря минимизации времени простоя памяти GPU.
Инструментарий DeepSpec
В состав релиза под свободной лицензией MIT вошел пакет DeepSpec, который предоставляет разработчикам полный спектр инструментов для обучения собственных черновых моделей:
- Готовые чекпоинты: Опубликованы предобученные черновики для моделей Qwen3 (версий на 4B, 8B и 14B) и Gemma-4-12B-it.
- Три архитектуры: Поддерживаются три алгоритма драфтинга — DSpark, DFlash и Eagle3.
- Инфраструктура: Инструменты для автоматической подготовки обучающих данных и точной оценки скорости работы в различных аппаратных средах.
Источники
- DeepSeek Blog, 2026-06-30
- VentureBeat, 2026-06-30
