imagenet2012

ILSVRC 2012, thường được gọi là 'ImageNet' là một tập dữ liệu hình ảnh được tổ chức theo cấu trúc phân cấp Mạng từ. Mỗi khái niệm có nghĩa trong Mạng từ, có thể được mô tả bằng nhiều từ hoặc cụm từ, được gọi là "tập hợp từ đồng nghĩa" hoặc "tập hợp mã". Có hơn 100.000 synsets trong WordNet, phần lớn trong số chúng là danh từ (80.000+). Trong ImageNet, chúng tôi mong muốn cung cấp trung bình 1000 hình ảnh để minh họa cho mỗi tập hợp hệ thống. Hình ảnh của mỗi khái niệm đều được kiểm soát chất lượng và có chú thích của con người. Khi hoàn thành, chúng tôi hy vọng ImageNet sẽ cung cấp hàng chục triệu hình ảnh được sắp xếp rõ ràng cho hầu hết các khái niệm trong hệ thống phân cấp Mạng từ.

Phần tách thử nghiệm chứa 100K hình ảnh nhưng không có nhãn vì không có nhãn nào được phát hành công khai. Chúng tôi cung cấp hỗ trợ cho phần tách thử nghiệm từ năm 2012 với bản vá lỗi nhỏ được phát hành vào ngày 10 tháng 10 năm 2019. Để tải xuống dữ liệu này theo cách thủ công, người dùng phải thực hiện các thao tác sau:

  1. Tải xuống phần tách thử nghiệm năm 2012 có sẵn tại đây .
  2. Tải xuống bản vá ngày 10 tháng 10 năm 2019. Có một liên kết Google Drive đến bản vá được cung cấp trên cùng một trang.
  3. Kết hợp hai tar-ball, ghi đè thủ công bất kỳ hình ảnh nào trong kho lưu trữ gốc bằng hình ảnh từ bản vá. Theo hướng dẫn trên image-net.org, quy trình này chỉ ghi đè một vài hình ảnh.

Sau đó, bóng dầu thu được có thể được xử lý bởi TFDS.

Để đánh giá độ chính xác của một mô hình trong phần tách kiểm tra ImageNet, người ta phải chạy suy luận trên tất cả các hình ảnh trong phần tách, xuất các kết quả đó sang tệp văn bản phải được tải lên máy chủ đánh giá ImageNet. Những người bảo trì máy chủ đánh giá ImageNet cho phép một người dùng gửi tối đa 2 lần nộp mỗi tuần để tránh trang bị quá nhiều.

Để đánh giá độ chính xác của phần tách thử nghiệm, trước tiên người ta phải tạo một tài khoản tại image-net.org. Tài khoản này phải được sự chấp thuận của quản trị viên trang web. Sau khi tài khoản được tạo, người ta có thể gửi kết quả đến máy chủ thử nghiệm tại https://image-net.org/challenges/LSVRC/eval_server.php Bài nộp bao gồm một số tệp văn bản ASCII tương ứng với nhiều nhiệm vụ. Nhiệm vụ quan tâm là "Trình phân loại (lỗi cls top-5)". Một mẫu tệp văn bản được xuất trông giống như sau:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Định dạng xuất được mô tả đầy đủ trong "readme.txt" trong bộ công cụ phát triển 2013 có sẵn tại đây: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Vui lòng xem phần có tên "3.3 CLS-LOC định dạng trình ”. Tóm lại, định dạng của tệp văn bản là 100.000 dòng tương ứng với mỗi hình ảnh trong phần tách thử nghiệm. Mỗi dòng số nguyên tương ứng với 5 dự đoán theo thứ tự xếp hạng, hàng đầu cho mỗi hình ảnh thử nghiệm. Các số nguyên được lập chỉ mục 1 tương ứng với số dòng trong tệp nhãn tương ứng. Xem imagenet2012_labels.txt.

  • Trang chủ : https://image-net.org/

  • Mã nguồn : tfds.image_classification.Imagenet2012

  • Các phiên bản :

    • 2.0.0 : Sửa nhãn xác thực.
    • 2.0.1 : Sửa lỗi mã hóa. Không có thay đổi từ quan điểm của người dùng.
    • 3.0.0 : Sửa lỗi màu trên ~ 12 hình ảnh (CMYK -> RGB). Sửa định dạng cho nhất quán (chuyển đổi hình ảnh png đơn thành Jpeg). Đọc thế hệ nhanh hơn trực tiếp từ kho lưu trữ.

    • 4.0.0 : (chưa xuất bản)

    • 5.0.0 : API phân tách mới ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (mặc định): Đã thêm phần tách thử nghiệm.

  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu: 155.84 GiB

  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir phải chứa hai tệp: ILSVRC2012_img_train.tar và ILSVRC2012_img_val.tar. Bạn cần đăng ký trên https://image-net.org/download-images để có được liên kết tải xuống bộ dữ liệu.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Cấu trúc tính năng :
FeaturesDict({
    'file_name': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1000),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
tên_tệp Bản văn tf.string
hình ảnh Hình ảnh (Không có, Không có, 3) tf.uint8
nhãn mác ClassLabel tf.int64

Hình dung

  • Trích dẫn :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}