Satis

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 4|回復: 0
打印 上一主題 下一主題

我们能降到多低?

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
跳轉到指定樓層
樓主
發表於 2025-3-6 16:22:28 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
图 3:QLoRA 使用 4 位量化基础变换器模型,进一步提高 LoRA 的微调效率。他们还引入了分页机制,在 GPU 内存峰值期间将优化器状态传输到 CPU,以避免内存不足错误并简化单台机器上大型模型的训练。[4]

研究人员不断尝试突破极限,最近的研究表明,对于混合专家模型来说,达到亚 1 位压缩是可行的。

混合专家模型用一组稀疏专家取代密集层,每个专家都是一个神经网络。然后他们使用路由系统将输入令牌发送给众多专家之一。

由于 token 仅通过网络的一部分,因此可以缩 哥伦比亚电报数据 短推理时间,但这意味着由于拥有许多专家而导致的参数数量很大,因此内存需求仍然很高。有关混合专家模型的介绍,本博客内容很全面。

QMoE 框架 [7] 能够将 1.6 万亿参数的 SwitchTransformer 模型压缩到每个参数仅 0.8 位,而性能仅有轻微下降。

这是一个令人兴奋的领域,因为这些进步将继续使更强大的开源语言模型变得可用。

参考
[2] Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher。指针哨兵混合模型。arXiv 预印本 arXiv:1609.07843,2016 年

[3] Dettmers, T.、Svirschevski, R.、Egiazarian, V.、Kuznedelev, D.、Frantar, E.、Ashkboos, S.、Borzunov, A.、Hoefler, T. 和 Alistarh, D. (2023)。SpQR:近无损 LLM 权重压缩的稀疏量化表示。http ://arxiv.org/abs/2306.03078


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|Satis  

GMT+8, 2025-4-10 06:19 , Processed in 0.197299 second(s), 4 queries , File On.

抗攻擊 by GameHost X3.3

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |