Chipmunk引入了扩散变压器的无训练加速度

Chipmunk Introduces Training-Free Acceleration for Diffusion Transformers

Ted Hisokawa Apr 22, 2025 02:14

Chipmunk leverages dynamic sparsity to accelerate diffusion transformers, achieving significant speed-ups in video and image generation without additional培训。

chipmunk是一种新型的加速扩散变压器的方法。此方法利用动态列 - sparse deltas,而无需进行额外的培训。将一种技术从前步骤中缓存到注意力重量和MLP激活的技术,通过动态计算这些缓存权重的稀疏增量。与传统方法相比,这种方法使Chipmunk可以在Hunyuanvideo等平台上实现高达3.7倍的视频生成。该方法显示特定配置的2.16倍速度提高,并且在磁通量上的图像生成速度最高1.6倍。 Chipmunk通过关注两个关键见解来解决这些挑战:模型激活的慢速变化本质及其固有的稀疏性。通过对这些激活进行重新调整以计算跨步骤三角洲,该方法提高了它们的稀疏性和效率。

硬件 - 感知优化

chipmunk的设计包括硬件感知的稀疏模式tHAT使用全局内存中的非连续列为密集的共享内存图块优化。这种方法与快速内核相结合,可实现重大的计算效率和速度提高。该方法利用GPU对计算大块的偏爱,与天然瓷砖大小对齐以获得最佳性能。

内核优化

进一步提高性能,Chipmunk结合了几个内核优化。这些包括通过自定义CUDA内核的快速稀疏性识别,使用CUDA驱动程序API的有效缓存写入和经过扭曲的持续核。这些创新有助于更有效地执行,减少了计算时间和资源的使用。

开源和社区参与度

一起。该计划是加速模型的更广泛努力的一部分跨各种体系结构的性能,例如Flux-1.dev和DeepSeek R1。

,对于更详细的见解和技术文档,感兴趣的读者可以一起访问完整的博客文章。

图像来源:ShutterStock:ShutterStock
Previous Post2025年的Stablecoins:监管挑战和新兴机会
Next Post没有了