模型剪枝介绍

References

**模型剪枝（Model Pruning）**是一种用于减少神经网络模型参数数量和计算量的技术。它通过识别和去除在训练过程中对模型性能影响较小的参数或连接，从而实现模型的精简和加速。

通常，模型剪枝可以分为两种类型：结构化剪枝（Structured Pruning）和非结构化剪枝（Unstructured Pruning）。

结构化剪枝和非结构化剪枝的主要区别在于剪枝目标和由此产生的网络结构。结构化剪枝根据特定规则删除连接或层结构，同时保留整体网络结构。而非结构化剪枝会剪枝各个参数，从而产生不规则的稀疏结构。

模型剪枝的一般步骤包括：

模型剪枝可以带来多方面的好处，包括减少模型的存储需求、加速推理速度、减少模型在边缘设备上的资源消耗等。然而，剪枝可能会带来一定的性能损失，因此需要在剪枝前后进行适当的评估和调整。

论文核心点

以 BN 中的 γ 为切入点，即 γ 越小，其对应的特征图越不重要
为了使得 γ 能有特征选择的作用，引入 L1 正则来控制 γ $$ L = \sum_{(x,y)} l(f(x, W), y) + \lambda \sum_{\gamma \in \Gamma} g(\gamma) $$

如何得到每个特征图的重要性呢？–BN要解决的问题

BN本质作用

BN额外参数

稀疏化原理与效果

论文中提出：训练时使用 L1 正则化能对参数进行稀疏作用
L1：稀疏与特征选择；L2：平滑特征
L1 正则化：$J(\vec{\theta}) = \frac{1}{2} \sum_{i=1}^{m} \left( h_{\vec{\theta}}(x^{(i)}) - y^{(i)} \right)^2 + \lambda \sum_{j=1}^{n} |\theta_j|$，$\theta_j$是要正则化的参数
L2 正则化：$J(\vec{\theta}) = \frac{1}{2} \sum_{i=1}^{m} \left( h_{\vec{\theta}}(x^{(i)}) - y^{(i)} \right)^2 + \lambda \sum_{j=1}^{n} \theta_j^2$，同上