Satis

標題: 我们能降到多低? [打印本頁]

作者: ayesha983    時間: 2025-3-6 16:22
標題: 我们能降到多低?
图 3:QLoRA 使用 4 位量化基础变换器模型,进一步提高 LoRA 的微调效率。他们还引入了分页机制,在 GPU 内存峰值期间将优化器状态传输到 CPU,以避免内存不足错误并简化单台机器上大型模型的训练。[4]

研究人员不断尝试突破极限,最近的研究表明,对于混合专家模型来说,达到亚 1 位压缩是可行的。

混合专家模型用一组稀疏专家取代密集层,每个专家都是一个神经网络。然后他们使用路由系统将输入令牌发送给众多专家之一。

由于 token 仅通过网络的一部分,因此可以缩 哥伦比亚电报数据 短推理时间,但这意味着由于拥有许多专家而导致的参数数量很大,因此内存需求仍然很高。有关混合专家模型的介绍,本博客内容很全面。

QMoE 框架 [7] 能够将 1.6 万亿参数的 SwitchTransformer 模型压缩到每个参数仅 0.8 位,而性能仅有轻微下降。

这是一个令人兴奋的领域,因为这些进步将继续使更强大的开源语言模型变得可用。

参考
[2] Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher。指针哨兵混合模型。arXiv 预印本 arXiv:1609.07843,2016 年

[3] Dettmers, T.、Svirschevski, R.、Egiazarian, V.、Kuznedelev, D.、Frantar, E.、Ashkboos, S.、Borzunov, A.、Hoefler, T. 和 Alistarh, D. (2023)。SpQR:近无损 LLM 权重压缩的稀疏量化表示。http ://arxiv.org/abs/2306.03078







歡迎光臨 Satis (http://satis.makebbs.com/) Powered by Discuz! X3.3
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |