损失函数

BCE Loss

二值交叉熵（Binary Cross Entropy, 简称 BCE）损失函数是二值图像分割中的常用损失函数之一。它用于衡量模型预测的二值输出与实际标签之间的差异。下面是对 BCE 损失函数的详细解释。

\mathcal{L}_{bce} = - \frac{1}{N} \sum_{i=1}^{N} (y_i \cdot \log(\hat{y}_i) + (1 - y_i) \cdot \log(1 - \hat{y}_i))

基于交叉熵的概念，交叉熵是一种衡量两个概率分布之间差异的指标。在二值图像分割中，真实标签 $y_i$ 和预测概率 $\hat{y}_i$ 可以被看作两个二元分布。其中

$y_i$ 是第 $i$ 个像素的真实标签（0 或 1）。
$\hat{y}_i$ 是模型预测的第 $i$ 个像素属于前景的概率（0 到 1 之间的值）。
当真实标签 $y_i = 1$ 时，损失函数的第一部分 $y_i \cdot \log(\hat{y}_i)$ 起作用，如果 $\hat{y}_i$ 越接近 1，损失值越小。
当真实标签 $y_i = 0$ 时，损失函数的第二部分 $(1 - y_i) \cdot \log(1 - \hat{y}_i)$ 起作用，如果 $\hat{y}_i$ 越接近 0，损失值越小。

因此，当模型预测的概率接近真实值时，BCE 损失会较小；反之，如果预测值与真实值偏离较大，损失值就会增大。

v = \frac{v}{max(\Vert v \Vert_p, \epsilon)}

归一化输出，使最终结果更加稳定。

可视化效果最好的降维算法。可用于绘图。

衡量重建图像（如超分辨率、去噪）与原始图像的像素级误差，数值越大越好。

\text{PSNR} = 10 \cdot \log_{10}\left(\frac{\text{MAX}_I^2}{\text{MSE}}\right)

\text{MSE} = \frac{1}{MN} \sum_{i=1}^{M} \sum_{j=1}^{N} (I(i,j) - K(i,j))^2

特点：

评估两图像在亮度、对比度和结构上的相似性，数值范围 [0,1]，越大越好。

\text{SSIM}(x,y) = \frac{(2\mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}

其中

特点：

过拟合 模型在训练集上表现极好，但在测试集上泛化能力差，通常因为模型过于复杂或数据量不足，导致“记住了噪声而非规律”。

局部最优值 指优化算法（如梯度下降）陷入损失函数的某个局部最小值（非全局最优），导致模型性能未达到最佳。

从数据、模型、损失函数三个方面理解局部最优。如果局部最优对应的是一个低质量的解（如拟合了噪声），可能表现为过拟合；如果局部最优对应的是欠拟合解（如模型能力不足），则与过拟合无关。

可以通过正则化方法（如 $\ell_2$ 正则、Dropout）消除一些局部最优点，使优化更易接近全局最优。以 $\ell_2$ -norm 为例，通过添加权重惩罚项，使损失函数更平滑，减少陷入尖锐局部最优的风险。

除此之外，数据增强、Batch Normalization、简化模型可有效避免过拟合，一定程度上避免陷入局部最优。配合自适应优化器（如 Adam）、学习率衰减、随机权重初始化等策略规避局部最优。