Создатели популярной модели DeepSeek представили фреймворк DSpark под открытой лицензией MIT. Благодаря алгоритмам спекулятивного декодирования инструмент ускоряет инференс больших языковых моделей на величину до 85%, снижая задержки и нагрузку на серверы.
В условиях дефицита и высокой стоимости вычислительных мощностей для работы искусственного интеллекта китайская исследовательская лаборатория DeepSeek продолжает выпускать эффективные решения с открытым кодом. Последней разработкой компании стал проект DSpark.
Суть технологии спекулятивного декодирования
DSpark основан на методе спекулятивного декодирования (speculative decoding). В этой схеме параллельно работают две модели: легкая вспомогательная (draft model) быстро генерирует варианты токенов, а крупная основная модель (target model) проверяет их за один проход. Это позволяет значительно снизить количество обращений к памяти видеокарт, являющееся главным узким местом при генерации текста.
Сокращение затрат на инфраструктуру
Согласно результатам тестов, применение DSpark позволяет ускорить время отклика (time-to-first-token и общую генерацию) больших языковых моделей на величину до 85%. Для бизнеса и разработчиков это означает возможность существенно снизить затраты на хостинг ИИ-моделей, используя менее мощные серверы для достижения той же скорости работы.
Источники
- VentureBeat, 2026-06-30
