评测指标
Last updated
Was this helpful?
Last updated
Was this helpful?
混淆矩阵
Log-loss
如果全部预测为0.5,则 logloss为-log0.5=0.693。logloss表示了模型训练的好坏,基本体现准确率
Accuracy
数据集上测试时直接用准确度即可(因为类别均衡)
类别不均衡时该指标具有欺骗性,可以更改为各个类别的平均准确度替代
比如真视频/假视频=99,如果把所有视频判断为真视频,则准确率为99%
Precision
Recall
F1-score
Precision和recall的调和平均
P-R曲线
纵轴precision,纵轴recall
weighted-PR
α = x/y,1:x表示真实流量中fake/real,1:y表示数据集中fake/real,显然x >> y
weight更加注重FP,即更加重视真视频被判别为假视频的比例,DFDC比赛用α=100画出PR图如下
ROC(Receiver Operating Characteristic Curve)
经常作为评估二分类器最重要的指标
FPR(false positive rate)= FP/(FP+TN)
TPR(true positive rate) = TP/(TP+FN) = recall
纵轴TPR,横轴FPR
AUC(area under curve)
即ROC曲线下的面积,越接近1效果越好
MSE(mean-square error)
容易受到极端离群点的影响
PCA 的目标,即最大化投影方差。主成分分析是一种线性的特征提取技术,它将数据通过线性映射的方式投影到低维空间中,通过这样的方式能够确保原数据在低维空间中方差最大。也就是让数据在主轴上投影的方差最大,直观的例子如下图所示:
PCA是一种广泛使用的技术,但它的主要缺点是无法维护数据集的局部结构(即近邻信息等)。
t-SNE不是线性降维技术,它遵循非线性,这是它可以捕获高维数据的复杂流形结构的主要原因。t-SNE从SNE发展而来。 SNE通过仿射变换将数据点映射到相应概率分布上,主要包括下面两个步骤:
通过在高维空间中构建数据点之间的概率分布 P ,使得相似的数据点有更高的概率被选择,而不相似的数据点有较低的概率被选择;
然后在低维空间里重构这些点的概率分布 Q,使得这两个概率分布尽可能相似。
通过让CNN模型标出是它是通过图片的哪些像素作出判断的,从而提高CNN的可解释性。 在最后一个卷积层产生一个粗略的定位图谱,突出显示图像中用于预测概念的重要的区域。
Grad-CAM(Gradient-weighted Class Activation Mapping)
计算步骤: