Satis
標題:
我们能降到多低?
[打印本頁]
作者:
ayesha983
時間:
2025-3-6 16:22
標題:
我们能降到多低?
图 3:QLoRA 使用 4 位量化基础变换器模型,进一步提高 LoRA 的微调效率。他们还引入了分页机制,在 GPU 内存峰值期间将优化器状态传输到 CPU,以避免内存不足错误并简化单台机器上大型模型的训练。[4]
研究人员不断尝试突破极限,最近的研究表明,对于混合专家模型来说,达到亚 1 位压缩是可行的。
混合专家模型用一组稀疏专家取代密集层,每个专家都是一个神经网络。然后他们使用路由系统将输入令牌发送给众多专家之一。
由于 token 仅通过网络的一部分,因此可以缩
哥伦比亚电报数据
短推理时间,但这意味着由于拥有许多专家而导致的参数数量很大,因此内存需求仍然很高。有关混合专家模型的介绍,本博客内容很全面。
QMoE 框架 [7] 能够将 1.6 万亿参数的 SwitchTransformer 模型压缩到每个参数仅 0.8 位,而性能仅有轻微下降。
这是一个令人兴奋的领域,因为这些进步将继续使更强大的开源语言模型变得可用。
参考
[2] Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher。指针哨兵混合模型。arXiv 预印本 arXiv:1609.07843,2016 年
[3] Dettmers, T.、Svirschevski, R.、Egiazarian, V.、Kuznedelev, D.、Frantar, E.、Ashkboos, S.、Borzunov, A.、Hoefler, T. 和 Alistarh, D. (2023)。SpQR:近无损 LLM 权重压缩的稀疏量化表示。http ://arxiv.org/abs/2306.03078
歡迎光臨 Satis (http://satis.makebbs.com/)
Powered by Discuz! X3.3
一粒米
|
中興米
|
論壇美工
| 設計
抗ddos
|
天堂私服
|
ddos
|
ddos
|
防ddos
|
防禦ddos
|
防ddos主機
|
天堂美工
| 設計
防ddos主機
|
抗ddos主機
|
抗ddos
|
抗ddos主機
|
抗攻擊論壇
|
天堂自動贊助
|
免費論壇
|
天堂私服
|
天堂123
|
台南清潔
|
天堂
|
天堂私服
|
免費論壇申請
|
抗ddos
|
虛擬主機
|
實體主機
|
vps
|
網域註冊
|
抗攻擊遊戲主機
|
ddos
|