
[2025 WWWJ] DySpec: Faster speculative decoding with dynamic token tree structure
熊云帆关于推测解码优化问题的论文《DySpec: Faster speculative decoding with dynamic token tree structure》的论文被WWWJ25接收。
推测解码技术是一项大语言模型的推理加速技术。在大语言模型生成的过程中,有很多表达语言连贯性的词句是参数量较小的模型就可以很好的生成的。在这种场景下,用小模型生成就能有很好的准确的。但是,如果直接使用小模型生成,或者识别出这些可以用小模型生成的词句后再用小模型生成,不可避免地会损失模型的整体的连贯性以及性能。推测解码使用小模型生成一批候选结果,再用大语言模型做验证的方法,保证模型的输出和直接用大语言模型生成采样等价。推测解码方法的一个问题是,预测多个令牌的时候,后一个令牌是否被接收依赖于前一个令牌的接受结果。这一方面导致了推测解码方法的推理过程是串行的,不能并行化。另一方面,推测解码在每一步都是以一定概率接受小模型的预测结果,在预测较长的序列时,期望收率的边际效益会指数级下降。这限制了推测解码方法的预测长度。而推测解码方法能实现推理加速的一个重要原因,就是在推理的批次无法填满,硬件的并行度无法充分利用的时候,推测解码可以在不增加请求的前提下增加推理的并行度,充分利用硬件资源,从而增加吞吐。本文提出了一种动态树结构的推测解码方法,DySpec,在构建预测树的时候,基于已生成结果动态的决策下一步的操作。实验表明本方法能有更高的单步接受令牌数以及更快的端到端加速效果。