📗
deeplearning
  • 机器学习
    • LR & SVM
    • 树模型
    • 评测指标
    • 数据不平衡
  • CV基础
    • 基础模型
    • 初始化
    • 激活函数
    • 注意力机制
    • 损失函数
    • 优化器
    • 可视化
    • 轻量级网络
    • 多任务学习
  • deepfake
    • 数据集
  • 人脸
    • 数据集
    • 人脸对齐
    • 人脸检测
    • 人脸识别
  • 语义分割
    • 语义分割
  • 无监督
    • 无监督
  • 推荐系统
    • 推荐系统模型
    • 推荐系统中的偏差
    • 王喆:深度学习推荐系统
    • 特征处理
    • 重排序
    • 互联网商业化变现
  • 数学
    • bayes最大似然
    • 蒙特卡洛
  • 网站
    • css
    • html
    • js
    • jquery
    • flask
  • 基础工具
    • anaconda
    • docker
    • git
    • linux install
    • vpn
    • latex
  • python
    • numpy
    • matplotlib
    • pandas
    • multi process
    • pytorch
  • 设计模式
    • 设计模式之美
    • 图说设计模式
  • 其他
    • how to ask
    • python style
Powered by GitBook
On this page
  • LFW
  • CASIA-WebFace
  • Trillion Pairs
  • FaceScrub
  • MegaFace

Was this helpful?

  1. 人脸

数据集

Previous数据集Next人脸对齐

Last updated 3 years ago

Was this helpful?

LFW

LFW数据集本身共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。

LFW 数据库主要是从互联网上搜集图像,而不是实验室,一共含有13000 多张人脸图像,每张图像都被标识出对应的人的名字,其中有1680 人对应不只一张图像,即大约1680个人包含两个以上的人脸。

LFW数据集主要测试人脸验证的准确率,该数据库从中随机选择了6000对人脸组成了人脸辨识图片对,其中3000对属于同一个人2张人脸照片,3000对属于不同的人每人1张人脸照片。测试过程LFW给出一对照片,询问测试中的系统两张照片是不是同一个人,系统给出“是”或“否”的答案。通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。

CASIA-WebFace

CASIA-WebFace数据集包含了10575 个人的494414 张图像。

可下载对齐的人脸数据来自

Trillion Pairs

train_msra

msra 从MS-Celeb_1M数据集中清洗得到的86,876人 /3923,399 对齐的人脸图片 msra_lmk 文件,3923,399行,每一行包括图像的<path> <label> <x1> <y1> <x2> <y2> ..... <x5> <y5>

label是从0到86875 x,y是对齐人脸的关键点坐标,从1到5分别是左眼、右眼、鼻子、左嘴角、右嘴角

train_celebrity

celebrity 训练名为Asian-Celeb的数据集,具有93,979个ID / 2,830,146个对齐的图像。该数据集已从LFW和MS-Celeb-1M-v1c中排除。

celebrity_lmk 五点坐标,和msra_lmk的格式相同

testdata

testdata 测试数据集中有1,862,120张对齐的图像 testdata_lmk.txt 每一行一张图片,不包括标签,格式为<path> <x1> <y1> <x2> <y2> ..... <x5> <y5>

FaceScrub

facescrub包含530个人的10万幅图像,其中55742幅男性图像,52076幅女性图像。为了提高效率,算法评估中只随机选取其中每人含图像超过50张的80人(40男40女),并每人中随机选50张图像,进行测试。

MegaFace

megaface
    100
        100#####@N##
            ########### _#
    101
    ...
    999
facesScrub

顶级文件夹由它们所包含的用户ID的前三位数字命名。用户图像被分类到各个文件夹当中,文件夹的命名为########@N##,@以前是用户id,文件夹包含图像及其边界框信息。 文件命名为###########_#,_之前的部分表示该面孔来自的图像,后部分标识与该图像中的该面孔相关的编号。 megaface中各文件的大小如下:

  • MegaFace Dataset(65GB),即Gallery dataset,或Distractors

  • FaceScrub full tgz —16.4 GB,即probe(我选的是原始图片,即uncropped)

  • Linux Development Kit (.zip) (.tar.gz) —16 MB,megaface开发包,python程序,给定特征文件,用来计算测试结果的

对于challeng 1:在100万的distractors环境下,测试搜索的rank1 accuracy。用100万图像做干扰,即megaface数据集,用3000张图片做测试(FaceScrub的80个名人)。 如果只是在本地测试,那么不需要下载全部的图片以及处理全部的图片,只需要按照devkit/templatelists/目录下的megaface_features_list.json_1000000_1和facescrub_uncropped_features_list.json,前者包含100w干扰图片,后者包含80个名人约3000多张用于做搜索目标的图片。即只包含这两个列表中的文件。

本地测试分为三个步骤:

  1. 对原始图片进行裁剪和对齐(megaface的处理较粗,facescrub的处理较细致)

  2. 对原始图片提取特征文件并保存

  3. 用devkit中的测试文件进行测试

MobileFaceNet_Pytorch
格灵深瞳公司发布
华盛顿大学的团队开发的数据集