损失函数
Last updated
Was this helpful?
Last updated
Was this helpful?
信息量:概率越大的事件信息量越小,定义事件X=x0的信息量$I\left(x_{0}\right)=-\log \left(p\left(x_{0}\right)\right)$
每个事件都有不同的取值,不同的取值对应不同的信息量,信息量的期望就叫做墒H(X)。 $H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)$
衡量两个分布的差异,可以用相对墒,又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。 $D_{K L}(p | q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)$
$\begin{aligned} D_{K L}(p | q) &=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \&=-H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right] \end{aligned}$
等式的前一部分恰巧就是p的熵,等式的后一部分,就是交叉熵.
这里用softmax就是归一化概率,本质是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间,可以当作概率,就像逻辑回归时用sigmoid做归一化。
优化交叉墒就是优化KL散度,即将两个分布的。
$max(0, 1-z)$
Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重,也可理解为一种困难样本挖掘。
添加gramma,解决简单与困难样本的问题。对于简单样本,降低权重。比如预测为0.95,乘上权重,附加参数趋近于0。
添加alpha虽然可以平衡正负样本的重要性。