1. CASIA-WebFace

Dataset có kích thước tầm 4.1G, bao gồm 494,414 hình khuôn mặt của 10,575 người thật được thu thập trên web và đã gán nhãn đầy đủ. Dataset này phục vụ cho bài toán face verification và face identification .

https://archive.org/download/NudeNet_classifier_dataset_v1/NudeNet_Classifier_train_data_x320.zip

Đối với các bạn muốn mì ăn liền, thì có thể tải pretrain model NudeNet trên pip về rồi thử.

2. MS-Celeb-1M

Tập dataset khuôn mặt gốc được microsoft công bố năm 2016 phục vụ cho bài toán nhận diện khuôn mặt. Tập này chứa tầm 10 triệu ảnh của 100,000 cá nhân khác nhau, đa số là các diễn viên Hollywood (nên có thêm từ Celeb - viết tắt của celebrity).

Hình ảnh

Nguồn microsoft.com

Hiện nay dataset này đã bị xóa bỏ khỏi website gốc msceleb.org và dự án này của microsoft đã bị kết thúc vì một lý do nào đó.

Link download: https://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

Các bạn cân nhắc kỹ trước khi download. Do không phải là link chính chủ

Mã lệnh convert tsv file sang hình ảnh

 1import argparse
 2import base64
 3import csv
 4import os
 5# import magic # Detect image type from buffer contents (disabled, all are jpg)
 6
 7parser = argparse.ArgumentParser()
 8parser.add_argument('--croppedTSV', type=str)
 9parser.add_argument('--outputDir', type=str, default='raw')
10args = parser.parse_args()
11
12with open(args.croppedTSV, 'r') as tsvF:
13    reader = csv.reader(tsvF, delimiter='\t')
14    i = 0
15    for row in reader:
16        MID, imgSearchRank, faceID, data = row[0], row[1], row[4], base64.b64decode(row[-1])
17
18        saveDir = os.path.join(args.outputDir, MID)
19        savePath = os.path.join(saveDir, "{}-{}.jpg".format(imgSearchRank, faceID))
20
21        # assert(magic.from_buffer(data) == 'JPEG image data, JFIF standard 1.01')
22
23        os.makedirs(saveDir, exist_ok=True)
24        with open(savePath, 'wb') as f:
25            f.write(data)
26
27        i += 1
28
29        if i % 1000 == 0:
30            print("Extracted {} images.".format(i))
31
32# Nguồn https://github.com/EB-Dodo/C-MS-Celeb/issues/1#issuecomment-844894295

Dữ liệu gốc của MS-Celeb-1M có nhiều hình ảnh trùng, gán sai. Có nhiều task đã được implement để làm sạch dataset trên. Một trong những task mình thấy khá ổn là

https://github.com/EB-Dodo/C-MS-Celeb

Tác giả đã xử lý, rút trích, giữ lại tầm 6.5 triệu hình của 94,682 người nổi tiếng

3. VGG Face và VGG Face2

Dataset bao gồm 494,414 hình khuôn mặt của 10,575 người. Các bạn có thể download tại link chính chủ

https://www.robots.ox.ac.uk/~vgg/data/vgg_face/vgg_face_dataset.tar.gz

tập VGG Face2 đã bị xóa trên trang chủ do vi phạm bản quyền. Nên hiện thời không có link chính chủ

Dataset Nhận Dạng Khuông Mặt

1. CASIA-WebFace

2. MS-Celeb-1M

3. VGG Face và VGG Face2

Comments