hình ảnh2012

  • Sự miêu tả :

ILSVRC 2012, thường được gọi là 'ImageNet' là bộ dữ liệu hình ảnh được tổ chức theo hệ thống phân cấp của WordNet. Mỗi khái niệm có ý nghĩa trong WordNet, có thể được mô tả bằng nhiều từ hoặc cụm từ, được gọi là "tập hợp từ đồng nghĩa" hoặc "tập hợp từ đồng nghĩa". Có hơn 100.000 bộ đồng nghĩa trong WordNet, phần lớn trong số đó là danh từ (80.000+). Trong ImageNet, chúng tôi mong muốn cung cấp trung bình 1000 hình ảnh để minh họa cho mỗi tập hợp. Hình ảnh của mỗi khái niệm đều được kiểm soát chất lượng và có chú thích của con người. Khi hoàn thành, chúng tôi hy vọng ImageNet sẽ cung cấp hàng chục triệu hình ảnh được sắp xếp rõ ràng cho hầu hết các khái niệm trong hệ thống phân cấp của WordNet.

Phần tách thử nghiệm chứa 100K hình ảnh nhưng không có nhãn vì chưa có nhãn nào được phát hành công khai. Chúng tôi cung cấp hỗ trợ cho quá trình phân tách thử nghiệm từ năm 2012 với bản vá nhỏ được phát hành vào ngày 10 tháng 10 năm 2019. Để tải xuống dữ liệu này theo cách thủ công, người dùng phải thực hiện các thao tác sau:

  1. Tải xuống bản phân chia thử nghiệm năm 2012 tại đây .
  2. Tải xuống bản vá ngày 10 tháng 10 năm 2019. Có một liên kết Google Drive tới bản vá được cung cấp trên cùng một trang.
  3. Kết hợp hai quả bóng tar, ghi đè thủ công bất kỳ hình ảnh nào trong kho lưu trữ gốc bằng hình ảnh từ bản vá. Theo hướng dẫn trên image-net.org, quy trình này chỉ ghi đè một vài hình ảnh.

Sau đó tar-ball có thể được xử lý bởi TFDS.

Để đánh giá độ chính xác của mô hình trong phần tách thử nghiệm ImageNet, người ta phải chạy suy luận trên tất cả các hình ảnh trong phần tách, xuất các kết quả đó sang tệp văn bản phải được tải lên máy chủ đánh giá ImageNet. Những người duy trì máy chủ đánh giá ImageNet cho phép một người dùng gửi tối đa 2 bài gửi mỗi tuần để ngăn chặn tình trạng trang bị quá mức.

Để đánh giá độ chính xác của phép chia thử nghiệm, trước tiên người ta phải tạo một tài khoản tại image-net.org. Tài khoản này phải được quản trị viên trang web chấp thuận. Sau khi tài khoản được tạo, người ta có thể gửi kết quả đến máy chủ thử nghiệm tại https://image-net.org/challenges/LSVRC/eval_server.php Bài gửi bao gồm một số tệp văn bản ASCII tương ứng với nhiều tác vụ. Nhiệm vụ quan tâm là "Gửi phân loại (lỗi cls top 5)". Mẫu tệp văn bản được xuất có dạng như sau:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Định dạng xuất được mô tả đầy đủ trong "readme.txt" trong bộ công cụ phát triển 2013 có sẵn tại đây: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Vui lòng xem phần có tiêu đề "3.3 CLS-LOC hình thức nộp hồ sơ". Tóm lại, định dạng của file văn bản là 100.000 dòng tương ứng với mỗi hình ảnh trong phần chia thử nghiệm. Mỗi dòng số nguyên tương ứng với 5 dự đoán hàng đầu được sắp xếp theo thứ tự cho mỗi hình ảnh thử nghiệm. Các số nguyên được lập chỉ mục 1 tương ứng với số dòng trong tệp nhãn tương ứng. Xem nhãn.txt.

  • Tài liệu bổ sung : Khám phá trên giấy tờ có mã

  • Trang chủ : https://image-net.org/

  • Mã nguồn : tfds.datasets.imagenet2012.Builder

  • Phiên bản :

    • 2.0.0 : Sửa nhãn xác thực.
    • 2.0.1 : Sửa lỗi mã hóa. Không có thay đổi từ quan điểm của người dùng.
    • 3.0.0 : Sửa lỗi màu trên ~12 hình ảnh (CMYK -> RGB). Sửa định dạng để đảm bảo tính nhất quán (chuyển đổi hình ảnh png đơn sang Jpeg). Đọc thế hệ nhanh hơn trực tiếp từ kho lưu trữ.

    • 4.0.0 : (chưa xuất bản)

    • 5.0.0 : API phân chia mới ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (mặc định): Đã thêm phần chia thử nghiệm.

  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 155.84 GiB

  • Hướng dẫn tải xuống thủ công : Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir phải chứa hai tệp: ILSVRC2012_img_train.tar và ILSVRC2012_img_val.tar. Bạn cần đăng ký trên https://image-net.org/download-images để nhận liên kết tải xuống tập dữ liệu.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Cấu trúc tính năng :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
tên_tệp Chữ sợi dây
hình ảnh Hình ảnh (Không, Không, 3) uint8
nhãn Nhãn lớp int64

Hình dung

  • Trích dẫn :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}