ABQ是一种 低位量化、任意位量化软件。它实现了比FP16提高4.8倍的内存压缩增益,并引入了一种新颖的任意位量化算法和推理框架。ABQ的关键创新包括Transformer块的分布校正方法、位平衡策略以及基于二进制TensorCore (BTC)。
此外,字节跳动也宣布开源其新研发的ABQ-LLM,这一创新工具在量化推理上实现了自由突破,并在效果和性能上达到了业界SOTA水平。
建议您在选择量化软件时,可以综合考虑软件的性能、压缩增益、适用场景等因素,以选择最适合自己的工具。
声明:
本站内容均来自网络,如有侵权,请联系我们。