Satis

標題: 我们能降到多低？ [打印本頁]

作者: ayesha983 時間: 2025-3-6 16:22
標題: 我们能降到多低？
图 3：QLoRA 使用 4 位量化基础变换器模型，进一步提高 LoRA 的微调效率。他们还引入了分页机制，在 GPU 内存峰值期间将优化器状态传输到 CPU，以避免内存不足错误并简化单台机器上大型模型的训练。[4]

研究人员不断尝试突破极限，最近的研究表明，对于混合专家模型来说，达到亚 1 位压缩是可行的。

混合专家模型用一组稀疏专家取代密集层，每个专家都是一个神经网络。然后他们使用路由系统将输入令牌发送给众多专家之一。

由于 token 仅通过网络的一部分，因此可以缩哥伦比亚电报数据短推理时间，但这意味着由于拥有许多专家而导致的参数数量很大，因此内存需求仍然很高。有关混合专家模型的介绍，本博客内容很全面。

QMoE 框架 [7] 能够将 1.6 万亿参数的 SwitchTransformer 模型压缩到每个参数仅 0.8 位，而性能仅有轻微下降。

这是一个令人兴奋的领域，因为这些进步将继续使更强大的开源语言模型变得可用。

参考
[2] Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher。指针哨兵混合模型。arXiv 预印本 arXiv:1609.07843，2016 年

[3] Dettmers, T.、Svirschevski, R.、Egiazarian, V.、Kuznedelev, D.、Frantar, E.、Ashkboos, S.、Borzunov, A.、Hoefler, T. 和 Alistarh, D. (2023)。SpQR：近无损 LLM 权重压缩的稀疏量化表示。http ://arxiv.org/abs/2306.03078

歡迎光臨 Satis (http://satis.makebbs.com/)