1. CASIA-WebFace
Dataset có kích thước tầm 4.1G, bao gồm 494,414 hình khuôn mặt của 10,575 người thật được thu thập trên web và đã gán nhãn đầy đủ. Dataset này phục vụ cho bài toán face verification và face identification .
https://archive.org/download/NudeNet_classifier_dataset_v1/NudeNet_Classifier_train_data_x320.zip
Đối với các bạn muốn mì ăn liền, thì có thể tải pretrain model NudeNet trên pip về rồi thử.
2. MS-Celeb-1M
Tập dataset khuôn mặt gốc được microsoft công bố năm 2016 phục vụ cho bài toán nhận diện khuôn mặt. Tập này chứa tầm 10 triệu ảnh của 100,000 cá nhân khác nhau, đa số là các diễn viên Hollywood (nên có thêm từ Celeb - viết tắt của celebrity).
Nguồn microsoft.com
Hiện nay dataset này đã bị xóa bỏ khỏi website gốc msceleb.org và dự án này của microsoft đã bị kết thúc vì một lý do nào đó.
Link download: https://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97
Các bạn cân nhắc kỹ trước khi download. Do không phải là link chính chủ
Mã lệnh convert tsv file sang hình ảnh
1import argparse
2import base64
3import csv
4import os
5# import magic # Detect image type from buffer contents (disabled, all are jpg)
6
7parser = argparse.ArgumentParser()
8parser.add_argument('--croppedTSV', type=str)
9parser.add_argument('--outputDir', type=str, default='raw')
10args = parser.parse_args()
11
12with open(args.croppedTSV, 'r') as tsvF:
13 reader = csv.reader(tsvF, delimiter='\t')
14 i = 0
15 for row in reader:
16 MID, imgSearchRank, faceID, data = row[0], row[1], row[4], base64.b64decode(row[-1])
17
18 saveDir = os.path.join(args.outputDir, MID)
19 savePath = os.path.join(saveDir, "{}-{}.jpg".format(imgSearchRank, faceID))
20
21 # assert(magic.from_buffer(data) == 'JPEG image data, JFIF standard 1.01')
22
23 os.makedirs(saveDir, exist_ok=True)
24 with open(savePath, 'wb') as f:
25 f.write(data)
26
27 i += 1
28
29 if i % 1000 == 0:
30 print("Extracted {} images.".format(i))
31
32# Nguồn https://github.com/EB-Dodo/C-MS-Celeb/issues/1#issuecomment-844894295
Dữ liệu gốc của MS-Celeb-1M có nhiều hình ảnh trùng, gán sai. Có nhiều task đã được implement để làm sạch dataset trên. Một trong những task mình thấy khá ổn là
https://github.com/EB-Dodo/C-MS-Celeb
Tác giả đã xử lý, rút trích, giữ lại tầm 6.5 triệu hình của 94,682 người nổi tiếng
3. VGG Face và VGG Face2
Dataset bao gồm 494,414 hình khuôn mặt của 10,575 người. Các bạn có thể download tại link chính chủ
https://www.robots.ox.ac.uk/~vgg/data/vgg_face/vgg_face_dataset.tar.gz
tập VGG Face2 đã bị xóa trên trang chủ do vi phạm bản quyền. Nên hiện thời không có link chính chủ
Comments