损失函数

BCE Loss

二值交叉熵(Binary Cross Entropy, 简称 BCE)损失函数是二值图像分割中的常用损失函数之一。它用于衡量模型预测的二值输出与实际标签之间的差异。下面是对 BCE 损失函数的详细解释。

Lbce=1Ni=1N(yilog(y^i)+(1yi)log(1y^i))\mathcal{L}_{bce} = - \frac{1}{N} \sum_{i=1}^{N} (y_i \cdot \log(\hat{y}_i) + (1 - y_i) \cdot \log(1 - \hat{y}_i))

基于交叉熵的概念,交叉熵是一种衡量两个概率分布之间差异的指标。在二值图像分割中,真实标签 yiy_i 和预测概率 y^i\hat{y}_i 可以被看作两个二元分布。其中

  • yiy_i 是第 ii 个像素的真实标签(0 或 1)。
  • y^i\hat{y}_i 是模型预测的第 ii 个像素属于前景的概率(0 到 1 之间的值)。
  • 当真实标签 yi=1y_i = 1 时,损失函数的第一部分 yilog(y^i)y_i \cdot \log(\hat{y}_i) 起作用,如果 y^i\hat{y}_i 越接近 1,损失值越小。
  • 当真实标签 yi=0y_i = 0 时,损失函数的第二部分 (1yi)log(1y^i)(1 - y_i) \cdot \log(1 - \hat{y}_i) 起作用,如果 y^i\hat{y}_i 越接近 0,损失值越小。

因此,当模型预测的概率接近真实值时,BCE 损失会较小;反之,如果预测值与真实值偏离较大,损失值就会增大。

原文链接☞

2\ell_2 Norm

v=vmax(vp,ϵ)v = \frac{v}{max(\Vert v \Vert_p, \epsilon)}

归一化输出,使最终结果更加稳定。

实验结果评估

t-SNE

可视化效果最好的降维算法。可用于绘图。

PSNR (Peak Signal-to-Noise Ratio)

衡量重建图像(如超分辨率、去噪)与原始图像的像素级误差,数值越大越好。

PSNR=10log10(MAXI2MSE)\text{PSNR} = 10 \cdot \log_{10}\left(\frac{\text{MAX}_I^2}{\text{MSE}}\right)

  • MAXI\text{MAX}_I​:图像像素最大值(如 8 位图像为255)
  • MSE\text{MSE}:均方误差

MSE=1MNi=1Mj=1N(I(i,j)K(i,j))2\text{MSE} = \frac{1}{MN} \sum_{i=1}^{M} \sum_{j=1}^{N} (I(i,j) - K(i,j))^2

特点:

  • 计算简单,但对人类视觉感知不敏感(可能与人眼评价不一致)。
  • 单位:分贝(dB),通常值在 20~40 之间,越高越好。

SSIM (Structural Similarity Index)

评估两图像在亮度、对比度和结构上的相似性,数值范围 [0,1],越大越好。

SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2)\text{SSIM}(x,y) = \frac{(2\mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}

其中

  • μx,μy\mu_x, \mu_y:图像 xxyy 的均值(亮度)
  • σx,σy\sigma_x, \sigma_y:标准差(对比度)
  • σxy\sigma_{xy}:协方差(结构相关性)
  • C1,C2C_1, C_2:防止除零的小常数(如 C1=(0.01L)2C_1 = (0.01L)^2, C2=(0.03L)2C_2 = (0.03L)^2LL 为像素范围)

特点:

  • 更符合人类视觉感知,但对局部失真不敏感。

其他指标

  • FID
  • LPIPS

原文链接 ☞

过拟合 局部最优

过拟合 模型在训练集上表现极好,但在测试集上泛化能力差,通常因为模型过于复杂或数据量不足,导致“记住了噪声而非规律”。

局部最优值 指优化算法(如梯度下降)陷入损失函数的某个局部最小值(非全局最优),导致模型性能未达到最佳。

从数据、模型、损失函数三个方面理解局部最优。如果局部最优对应的是一个低质量的解(如拟合了噪声),可能表现为过拟合;如果局部最优对应的是欠拟合解(如模型能力不足),则与过拟合无关。

应对措施

可以通过正则化方法(如 2\ell_2 正则、Dropout)消除一些局部最优点,使优化更易接近全局最优。以 2\ell_2-norm 为例,通过添加权重惩罚项,使损失函数更平滑,减少陷入尖锐局部最优的风险。

除此之外,数据增强、Batch Normalization、简化模型可有效避免过拟合,一定程度上避免陷入局部最优。配合自适应优化器(如 Adam)、学习率衰减、随机权重初始化等策略规避局部最优。