零损失压缩LLM性能，推理速度飙升39倍 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

DFloat11：大型语言模型压缩与加速的革命性突破

大型语言模型（LLM）在自然语言处理领域取得了显著的进展，但其庞大的规模带来了存储和计算上的挑战。传统的量化技术虽然可以压缩模型，但往往以牺牲精度为代价。近期，莱斯大学的研究团队提出了一种全新的无损压缩框架——动态长度浮点数（DFloat11），该技术能够在将LLM大小减少30%的同时，确保输出结果与原始模型逐位相同，并且推理速度最高可提升39倍，为LLM的部署和应用带来了革命性的突破。

无损压缩的必要性：精度与性能的双重保障

传统的有损量化技术通过降低模型的位宽度来实现压缩，虽然可以减少存储需求，但会不可避免地影响模型的准确性和可靠性。例如，LLM Arena上的人工评估显示，Llama-3.1-405B-Instruct及其8位版本在编码和长查询任务中的性能存在显著下降。类似地，将DeepSeek-R1-Distill-Llama-70B从16位量化到8位会导致GPQA上的性能下降23.7%。因此，无损压缩对于保证LLM的性能至关重要。

DFloat11的出现，打破了传统量化技术的局限性，它能够在压缩模型的同时，保持模型的精度不受损失。这意味着，使用DFloat11压缩后的模型，其输出结果与原始模型完全一致，不会出现性能下降的情况。这对于对精度要求较高的应用场景，如金融、医疗等领域，具有重要的意义。

DFloat11的技术原理：动态长度浮点数编码

DFloat11的核心思想是利用动态长度浮点数编码来表示模型中的参数。传统的浮点数表示方法使用固定长度的二进制位来表示数值，例如，单精度浮点数（float32）使用32位，双精度浮点数（float64）使用64位。而DFloat11则根据数值的大小和精度要求，使用不同长度的二进制位来表示数值。

具体来说，DFloat11将浮点数分为多个不同的区间，每个区间对应一个不同的编码长度。对于绝对值较大的数值，使用较长的编码长度来保证精度；对于绝对值较小的数值，使用较短的编码长度来减少存储空间。通过这种方式，DFloat11可以在保证精度的前提下，有效地压缩模型的大小。

DFloat11的GPU加速：定制化解压缩内核

为了支持使用动态长度编码进行高效推理，研究团队专门开发了一个定制的GPU内核，用于实现快速的在线解压缩。该内核采用了以下几种优化策略：

查找表（LUT）分解： 将内存密集型的查找表分解为更紧凑的LUT，使其能够完全放入GPU的SRAM中，从而减少内存访问延迟。

双阶段内核： 设计了一个双阶段内核，利用轻量级的辅助变量来协调线程的读写位置，从而提高并行计算效率。

Transformer Block级解压缩： 在Transformer Block级别进行解压缩，从而最大限度地降低延迟。

通过这些优化策略，DFloat11能够在GPU上实现高效的解压缩，从而加速LLM的推理过程。

DFloat11的性能表现：压缩率与推理速度的双重提升

在Llama-3.1、Qwen-2.5、Gemma-3等SOTA模型上的实验表明，DFloat11除了能有效压缩模型的大小之外，同时还能保持完全一致的输出结果。与将模型的部分数据卸载到CPU的方案相比，DFloat11在Token生成任务中实现了1.9到38.8倍的吞吐量提升。在GPU显存固定的情况下，DFloat11能够支持比未压缩模型长5.3到13.17倍的上下文长度。

特别值得一提的是，DFloat11成功地实现了Llama-3.1-405B（810GB）在单节点上（8块80GB GPU）的无损推理。这表明，DFloat11具有很强的实用性，可以帮助研究人员和企业在资源有限的情况下，部署和应用更大规模的LLM。

DFloat11的应用前景：赋能LLM的广泛应用

DFloat11的出现，为LLM的部署和应用带来了新的可能性。通过DFloat11，研究人员和企业可以在保证精度和性能的前提下，有效地压缩LLM的大小，降低存储和计算成本。这对于在资源有限的设备上部署LLM，如移动设备、嵌入式系统等，具有重要的意义。

此外，DFloat11还可以用于加速LLM的推理过程，提高LLM的响应速度。这对于对实时性要求较高的应用场景，如在线翻译、智能客服等，具有重要的价值。

结论：DFloat11引领LLM压缩与加速的新方向

DFloat11是一种创新的无损压缩框架，它能够有效地压缩LLM的大小，同时保持模型的精度不受损失，并且可以加速LLM的推理过程。DFloat11的出现，打破了传统量化技术的局限性，为LLM的部署和应用带来了革命性的突破。随着DFloat11的不断发展和完善，相信它将在自然语言处理领域发挥越来越重要的作用，引领LLM压缩与加速的新方向。

DFloat11：大型语言模型压缩与加速的革命性突破

Related Articles