一句话核心定义

星博讯 AI基础认知 2026-04-09 1

模型量化 是一种通过降低神经网络模型中数值的表示精度（从32位浮点数转换为8位整数），来显著减小模型体积、提升计算速度并降低功耗的技术，同时力求保持模型的预测精度。

一句话核心定义-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

可以把它理解为：给模型“瘦身”和“加速”，让它能在资源受限的设备（如手机、嵌入式设备）上高效运行。

为什么需要模型量化？

现代高性能神经网络（如Transformer、大型CNN）通常在训练时使用 FP32（单精度浮点数） 甚至 BF16/FP16（半精度浮点数），这种高精度表示确保了训练的稳定性和最终模型的精度，但也带来了两个主要问题：

模型体积巨大：一个参数为FP32的模型，每1亿个参数就占用约400MB存储空间，这对于移动应用或嵌入式设备来说难以承受。
计算耗能与延迟高：高精度浮点运算需要复杂的硬件单元，计算速度慢，功耗高，不利于实时推理和边缘部署。

量化的目标就是在精度损失可控的前提下，解决以上问题。

量化的核心原理

量化的本质是从高精度、连续的数值表示，映射到低精度、离散的数值表示。

最典型的例子是 FP32 -> INT8：

FP32：范围广（~±3.4e³⁸），精度高，能表示小数，但占用4字节。
INT8：范围窄（-128 到 127），只能表示整数，但仅占用1字节。

关键步骤：如何映射？ 需要一个量化函数，将浮点数的范围 [float_min, float_max] 线性（或非线性）映射到整数的范围 [int_min, int_max]（-128, 127]）。

公式（对称量化为例）： [ \text{量化比例因子 (scale)}: S = \frac{\text{float_max} - \text{float_min}}{\text{int_max} - \text{int_min}} ] [ \text{整数表示}: Q = \text{round}( \frac{X}{S} + Z ) ] [ \text{反量化 (推理时恢复近似值)}: X' = S \times (Q - Z) ] Z 是零点（zero-point），用于处理非对称范围。

简单比喻：就像把一张高清照片（FP32）转换成色彩索引有限的GIF图片（INT8），只要压缩得当，人眼看起来差别不大，但文件大小和显示所需资源都大大减少。

量化的主要类型

根据量化位置：
- 权重量化：仅对模型权重进行量化，最简单，对精度影响较小。
- 激活量化：对网络层输入/输出（激活值）也进行量化，能进一步加速，但实现更复杂，因为激活值的动态范围在运行时变化。
根据量化粒度：
- 每张量量化：整个权重张量使用一组 (scale, zero-point)。
- 每通道量化：权重张量的每个输出通道使用独立的 (scale, zero-point)，更精细，精度保留更好，是当前主流方式。
根据是否重新训练：
- 训练后量化：在模型训练完成后直接进行量化，速度快，但精度损失可能较大，常用于快速部署。
- 量化感知训练：在模型训练（或微调）过程中，模拟量化效应，让模型在训练时就“学习”并适应低精度的噪声，从而在最终量化后获得更高的精度，这是获得高精度量化模型的推荐方法。

量化的主要收益与挑战

收益（为什么要做）：

模型体积减小： FP32 -> INT8，理论体积减小为 1/4。
内存带宽需求降低：读取低精度数据更快，缓解了内存带宽瓶颈。
计算速度加快：整数运算（尤其是INT8）在现代CPU、GPU及专用AI加速器（如NPU）上比浮点运算快得多。
功耗降低：更简单的计算单元和更少的数据传输，显著降低能耗。

挑战（需要注意什么）：

精度损失：最主要的挑战，量化是一种有损压缩，可能引起模型输出误差，尤其在超低精度（如INT4）或敏感任务上。
溢出与截断：如果数值超出低精度表示范围，会被截断，导致信息丢失。
部署兼容性：需要硬件和推理框架支持对应的量化操作（如INT8卷积）。

应用场景

移动端与边缘AI：让大模型（如BERT，视觉Transformer）能在手机、智能摄像头、汽车上实时运行。
云端大规模推理：降低服务器成本，提升服务吞吐量。
微控制器与极致低功耗场景：使用INT8甚至二值化/三值化网络，在MCU上实现AI功能。

常用工具与框架

PyTorch： torch.ao.quantization （之前是 torch.quantization）
TensorFlow： TensorFlow Lite Converter， TensorFlow Model Optimization Toolkit
ONNX Runtime：支持多种量化格式的推理优化。
NVIDIA TensorRT：针对NVIDIA GPU的极致推理优化，包含量化功能。
Qualcomm AI Engine Direct：针对骁龙平台的量化工具。