评测指标

数值型计算指标

LogLoss = -\frac{1}{n} \sum_{i=1}^n{y_i log(\hat y_i) + (1-y_i) log(1-\hat y_i)}

如果全部预测为0.5，则 logloss为-log0.5=0.693。logloss表示了模型训练的好坏，基本体现准确率

Accuracy
- 数据集上测试时直接用准确度即可（因为类别均衡）
- 类别不均衡时该指标具有欺骗性，可以更改为各个类别的平均准确度替代
  - 比如真视频/假视频=99，如果把所有视频判断为真视频，则准确率为99%
Precision
Recall
F1-score
- Precision和recall的调和平均
P-R曲线
- 纵轴precision，纵轴recall
weighted-PR
- α = x/y，1：x表示真实流量中fake/real，1：y表示数据集中fake/real，显然x >> y
- weight更加注重FP，即更加重视真视频被判别为假视频的比例，DFDC比赛用α=100画出PR图如下

wP = \frac{TP}{TP + \alpha FP}, R = \frac{TP}{TP + FN}

ROC（Receiver Operating Characteristic Curve）
- 经常作为评估二分类器最重要的指标
- FPR(false positive rate）= FP/(FP+TN)
- TPR(true positive rate) = TP/(TP+FN) = recall
- 纵轴TPR，横轴FPR
AUC（area under curve）
- 即ROC曲线下的面积，越接近1效果越好
MSE（mean-square error）
- 容易受到极端离群点的影响

PCA 的目标，即最大化投影方差。主成分分析是一种线性的特征提取技术，它将数据通过线性映射的方式投影到低维空间中，通过这样的方式能够确保原数据在低维空间中方差最大。也就是让数据在主轴上投影的方差最大，直观的例子如下图所示：

计算步骤：

PCA是一种广泛使用的技术，但它的主要缺点是无法维护数据集的局部结构（即近邻信息等）。

t-SNE不是线性降维技术，它遵循非线性，这是它可以捕获高维数据的复杂流形结构的主要原因。t-SNE从SNE发展而来。 SNE通过仿射变换将数据点映射到相应概率分布上，主要包括下面两个步骤：

通过让CNN模型标出是它是通过图片的哪些像素作出判断的，从而提高CNN的可解释性。在最后一个卷积层产生一个粗略的定位图谱，突出显示图像中用于预测概念的重要的区域。

Grad-CAM（Gradient-weighted Class Activation Mapping）

Last updated 3 years ago

Was this helpful?