损失函数

交叉墒

信息量：概率越大的事件信息量越小，定义事件X=x0的信息量$I\left(x_{0}\right)=-\log \left(p\left(x_{0}\right)\right)$

每个事件都有不同的取值，不同的取值对应不同的信息量，信息量的期望就叫做墒H（X）。 $H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)$

衡量两个分布的差异，可以用相对墒，又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。 $D_{K L}(p | q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)$

$\begin{aligned} D_{K L}(p | q) &=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \&=-H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right] \end{aligned}$

等式的前一部分恰巧就是p的熵，等式的后一部分，就是交叉熵.

这里用softmax就是归一化概率，本质是将一个K维的任意实数向量压缩（映射）成另一个K维的实数向量，其中向量中的每个元素取值都介于（0,1）之间，可以当作概率，就像逻辑回归时用sigmoid做归一化。

优化交叉墒就是优化KL散度，即将两个分布的。

hinge loss

$max(0, 1-z)$

focal loss

Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重，也可理解为一种困难样本挖掘。

添加gramma，解决简单与困难样本的问题。对于简单样本，降低权重。比如预测为0.95，乘上权重，附加参数趋近于0。
添加alpha虽然可以平衡正负样本的重要性。

Previous注意力机制 Next优化器

Last updated 3 years ago

Was this helpful?