imagenet2012

ILSVRC 2012, thường được gọi là 'ImageNet' là một bộ dữ liệu hình ảnh được tổ chức theo phân cấp WordNet. Mỗi khái niệm có ý nghĩa trong WordNet, có thể được mô tả bằng nhiều từ hoặc cụm từ, được gọi là "tập hợp từ đồng nghĩa" hoặc "tập hợp từ đồng nghĩa". Có hơn 100.000 từ đồng nghĩa trong Mạng từ, phần lớn chúng là danh từ (80.000+). Trong ImageNet, chúng tôi mong muốn cung cấp trung bình 1000 hình ảnh để minh họa cho từng tập hợp. Hình ảnh của mỗi khái niệm được kiểm soát chất lượng và được chú thích bởi con người. Khi hoàn thành, chúng tôi hy vọng ImageNet sẽ cung cấp hàng chục triệu hình ảnh được sắp xếp rõ ràng cho hầu hết các khái niệm trong hệ thống phân cấp của Mạng từ.

Phần tách thử nghiệm chứa 100K hình ảnh nhưng không có nhãn vì không có nhãn nào được phát hành công khai. Chúng tôi cung cấp hỗ trợ cho phần tách thử nghiệm từ năm 2012 với bản vá nhỏ được phát hành vào ngày 10 tháng 10 năm 2019. Để tải xuống dữ liệu này theo cách thủ công, người dùng phải thực hiện các thao tác sau:

  1. Tải xuống phần tách thử nghiệm năm 2012 có sẵn tại đây .
  2. Tải xuống bản vá ngày 10 tháng 10 năm 2019. Có một liên kết Google Drive tới bản vá được cung cấp trên cùng một trang.
  3. Kết hợp hai quả bóng tar, ghi đè thủ công bất kỳ hình ảnh nào trong kho lưu trữ gốc bằng hình ảnh từ bản vá. Theo hướng dẫn trên image-net.org, quy trình này chỉ ghi đè lên một vài hình ảnh.

Sau đó, tar-ball thu được có thể được xử lý bởi TFDS.

Để đánh giá độ chính xác của một mô hình trên phần tách thử nghiệm ImageNet, người ta phải chạy suy luận trên tất cả các hình ảnh trong phần tách, xuất các kết quả đó thành tệp văn bản phải được tải lên máy chủ đánh giá ImageNet. Những người duy trì máy chủ đánh giá ImageNet cho phép một người dùng gửi tối đa 2 lần gửi mỗi tuần để tránh trang bị quá mức.

Để đánh giá độ chính xác của phần tách thử nghiệm, trước tiên người dùng phải tạo một tài khoản tại image-net.org. Tài khoản này phải được sự chấp thuận của quản trị viên trang web. Sau khi tài khoản được tạo, người dùng có thể gửi kết quả tới máy chủ thử nghiệm tại https://image-net.org/challenges/LSVRC/eval_server.php Nội dung gửi bao gồm một số tệp văn bản ASCII tương ứng với nhiều tác vụ. Nhiệm vụ quan tâm là "Đệ trình phân loại (lỗi 5 cls hàng đầu)". Mẫu của tệp văn bản đã xuất có dạng như sau:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Định dạng xuất được mô tả đầy đủ trong "readme.txt" trong bộ công cụ phát triển 2013 có tại đây: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Vui lòng xem phần có tiêu đề "3.3 CLS-LOC hình thức gửi". Tóm lại, định dạng của tệp văn bản là 100.000 dòng tương ứng với mỗi hình ảnh trong quá trình phân tách thử nghiệm. Mỗi dòng số nguyên tương ứng với 5 dự đoán hàng đầu được sắp xếp theo thứ tự cho mỗi hình ảnh thử nghiệm. Các số nguyên được lập chỉ mục 1 tương ứng với số dòng trong tệp nhãn tương ứng. Xem nhãn.txt.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://image-net.org/

  • Mã nguồn : tfds.datasets.imagenet2012.Builder

  • Phiên bản :

    • 2.0.0 : Sửa nhãn xác thực.
    • 2.0.1 : Sửa mã hóa. Không có thay đổi từ quan điểm của người dùng.
    • 3.0.0 : Sửa màu trên ~12 ảnh (CMYK -> RGB). Sửa định dạng để thống nhất (chuyển đổi hình ảnh png thành Jpeg). Tạo nhanh hơn đọc trực tiếp từ kho lưu trữ.

    • 4.0.0 : (chưa xuất bản)

    • 5.0.0 : API phân tách mới ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (mặc định): Đã thêm phần tách thử nghiệm.

  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 155.84 GiB

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir phải chứa hai tệp: ILSVRC2012_img_train.tar và ILSVRC2012_img_val.tar. Bạn cần đăng ký trên https://image-net.org/download-images để nhận liên kết tải xuống tập dữ liệu.

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Cấu trúc tính năng :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tên_tệp Chữ sợi dây
hình ảnh Hình ảnh (Không, Không có, 3) uint8
nhãn mác LớpNhãn int64

Hình dung

  • trích dẫn :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}