评测指标

数值型计算指标

  • 混淆矩阵

  • Log-loss

LogLoss=1ni=1nyilog(y^i)+(1yi)log(1y^i)LogLoss = -\frac{1}{n} \sum_{i=1}^n{y_i log(\hat y_i) + (1-y_i) log(1-\hat y_i)}

如果全部预测为0.5,则 logloss为-log0.5=0.693。logloss表示了模型训练的好坏,基本体现准确率

  • Accuracy

    • 数据集上测试时直接用准确度即可(因为类别均衡)

    • 类别不均衡时该指标具有欺骗性,可以更改为各个类别的平均准确度替代

      • 比如真视频/假视频=99,如果把所有视频判断为真视频,则准确率为99%

  • Precision

  • Recall

  • F1-score

    • Precision和recall的调和平均

  • P-R曲线

    • 纵轴precision,纵轴recall

  • weighted-PR

    • α = x/y,1:x表示真实流量中fake/real,1:y表示数据集中fake/real,显然x >> y

    • weight更加注重FP,即更加重视真视频被判别为假视频的比例,DFDC比赛用α=100画出PR图如下

wP=TPTP+αFP,R=TPTP+FNwP = \frac{TP}{TP + \alpha FP}, R = \frac{TP}{TP + FN}
  • ROC(Receiver Operating Characteristic Curve)

    • 经常作为评估二分类器最重要的指标

    • FPR(false positive rate)= FP/(FP+TN)

    • TPR(true positive rate) = TP/(TP+FN) = recall

    • 纵轴TPR,横轴FPR

  • AUC(area under curve)

    • 即ROC曲线下的面积,越接近1效果越好

  • MSE(mean-square error)

    • 容易受到极端离群点的影响

可视化评价指标

PCA(Principal component analysis )

PCA 的目标,即最大化投影方差。主成分分析是一种线性的特征提取技术,它将数据通过线性映射的方式投影到低维空间中,通过这样的方式能够确保原数据在低维空间中方差最大。也就是让数据在主轴上投影的方差最大,直观的例子如下图所示:

计算步骤:

PCA是一种广泛使用的技术,但它的主要缺点是无法维护数据集的局部结构(即近邻信息等)。

t-SNE (t-distributed stochastic neighbor embedding)

t-SNE不是线性降维技术,它遵循非线性,这是它可以捕获高维数据的复杂流形结构的主要原因。t-SNE从SNE发展而来。 SNE通过仿射变换将数据点映射到相应概率分布上,主要包括下面两个步骤:

  1. 通过在高维空间中构建数据点之间的概率分布 P ,使得相似的数据点有更高的概率被选择,而不相似的数据点有较低的概率被选择;

  2. 然后在低维空间里重构这些点的概率分布 Q,使得这两个概率分布尽可能相似。

CAM(Class Activation Mapping)

通过让CNN模型标出是它是通过图片的哪些像素作出判断的,从而提高CNN的可解释性。 在最后一个卷积层产生一个粗略的定位图谱,突出显示图像中用于预测概念的重要的区域。

Grad-CAM(Gradient-weighted Class Activation Mapping)

Last updated

Was this helpful?