|
图 3:QLoRA 使用 4 位量化基础变换器模型,进一步提高 LoRA 的微调效率。他们还引入了分页机制,在 GPU 内存峰值期间将优化器状态传输到 CPU,以避免内存不足错误并简化单台机器上大型模型的训练。[4]
研究人员不断尝试突破极限,最近的研究表明,对于混合专家模型来说,达到亚 1 位压缩是可行的。
混合专家模型用一组稀疏专家取代密集层,每个专家都是一个神经网络。然后他们使用路由系统将输入令牌发送给众多专家之一。
由于 token 仅通过网络的一部分,因此可以缩 哥伦比亚电报数据 短推理时间,但这意味着由于拥有许多专家而导致的参数数量很大,因此内存需求仍然很高。有关混合专家模型的介绍,本博客内容很全面。
QMoE 框架 [7] 能够将 1.6 万亿参数的 SwitchTransformer 模型压缩到每个参数仅 0.8 位,而性能仅有轻微下降。
这是一个令人兴奋的领域,因为这些进步将继续使更强大的开源语言模型变得可用。
参考
[2] Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher。指针哨兵混合模型。arXiv 预印本 arXiv:1609.07843,2016 年
[3] Dettmers, T.、Svirschevski, R.、Egiazarian, V.、Kuznedelev, D.、Frantar, E.、Ashkboos, S.、Borzunov, A.、Hoefler, T. 和 Alistarh, D. (2023)。SpQR:近无损 LLM 权重压缩的稀疏量化表示。http ://arxiv.org/abs/2306.03078
|
|