📗
deeplearning
  • 机器学习
    • LR & SVM
    • 树模型
    • 评测指标
    • 数据不平衡
  • CV基础
    • 基础模型
    • 初始化
    • 激活函数
    • 注意力机制
    • 损失函数
    • 优化器
    • 可视化
    • 轻量级网络
    • 多任务学习
  • deepfake
    • 数据集
  • 人脸
    • 数据集
    • 人脸对齐
    • 人脸检测
    • 人脸识别
  • 语义分割
    • 语义分割
  • 无监督
    • 无监督
  • 推荐系统
    • 推荐系统模型
    • 推荐系统中的偏差
    • 王喆:深度学习推荐系统
    • 特征处理
    • 重排序
    • 互联网商业化变现
  • 数学
    • bayes最大似然
    • 蒙特卡洛
  • 网站
    • css
    • html
    • js
    • jquery
    • flask
  • 基础工具
    • anaconda
    • docker
    • git
    • linux install
    • vpn
    • latex
  • python
    • numpy
    • matplotlib
    • pandas
    • multi process
    • pytorch
  • 设计模式
    • 设计模式之美
    • 图说设计模式
  • 其他
    • how to ask
    • python style
Powered by GitBook
On this page
  • 交叉墒
  • hinge loss
  • focal loss

Was this helpful?

  1. CV基础

损失函数

Previous注意力机制Next优化器

Last updated 3 years ago

Was this helpful?

交叉墒

信息量:概率越大的事件信息量越小,定义事件X=x0的信息量$I\left(x_{0}\right)=-\log \left(p\left(x_{0}\right)\right)$

每个事件都有不同的取值,不同的取值对应不同的信息量,信息量的期望就叫做墒H(X)。 $H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)$

衡量两个分布的差异,可以用相对墒,又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。 $D_{K L}(p | q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)$

$\begin{aligned} D_{K L}(p | q) &=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \&=-H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right] \end{aligned}$

等式的前一部分恰巧就是p的熵,等式的后一部分,就是交叉熵.

这里用softmax就是归一化概率,本质是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间,可以当作概率,就像逻辑回归时用sigmoid做归一化。

优化交叉墒就是优化KL散度,即将两个分布的。

hinge loss

$max(0, 1-z)$

focal loss

Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重,也可理解为一种困难样本挖掘。

  • 添加gramma,解决简单与困难样本的问题。对于简单样本,降低权重。比如预测为0.95,乘上权重,附加参数趋近于0。

  • 添加alpha虽然可以平衡正负样本的重要性。