数据不平衡

  • 欠采样

    • 代表方法有easyEnsemble,利用集成学习,将反例划分成不同的集合供不同的学习器使用,这样对每个学习器都进行了欠采样,但是全局不丢失信息。

  • 过采样

    • 不能简单的对正例进行重复采样,会导致过拟合

    • 代表方法有SMOTE(Synthetic Minority Oversampling Technique),对正例进行插值产生额外的正例

  • 再缩放方法(rescaling)和阈值移动thresh-moving

Last updated

Was this helpful?