이미지넷2012

일반적으로 'ImageNet'으로 알려진 ILSVRC 2012는 WordNet 계층 구조에 따라 구성된 이미지 데이터 세트입니다. 여러 단어나 단어 구로 설명될 수 있는 WordNet의 각 의미 있는 개념을 "동의어 집합" 또는 "synset"이라고 합니다. WordNet에는 100,000개 이상의 synset이 있으며 그 중 대부분은 명사입니다(80,000+). ImageNet에서는 각 synset을 설명하기 위해 평균 1000개의 이미지를 제공하는 것을 목표로 합니다. 각 개념의 이미지는 품질 관리되고 사람이 주석을 달았습니다. 완료되면 ImageNet이 WordNet 계층 구조의 대부분의 개념에 대해 깔끔하게 정렬된 수천만 개의 이미지를 제공하기를 바랍니다.

테스트 분할에는 100,000개의 이미지가 포함되어 있지만 라벨이 공개되지 않았기 때문에 라벨이 없습니다. 2019년 10월 10일에 릴리스된 마이너 패치로 2012년부터 테스트 분할을 지원합니다. 이 데이터를 수동으로 다운로드하려면 사용자가 다음 작업을 수행해야 합니다.

  1. 여기 에서 2012 테스트 분할을 다운로드하십시오.
  2. 2019년 10월 10일 패치를 다운로드하십시오. 동일한 페이지에 제공된 패치에 대한 Google 드라이브 링크가 있습니다.
  3. 두 개의 tar-ball을 결합하여 원본 아카이브의 이미지를 패치의 이미지로 수동으로 덮어씁니다. image-net.org의 지침에 따르면 이 절차는 몇 개의 이미지만 덮어씁니다.

그 결과 타르볼은 TFDS에서 처리될 수 있습니다.

ImageNet 테스트 분할에서 모델의 정확도를 평가하려면 분할의 모든 이미지에 대해 추론을 실행하고 해당 결과를 ImageNet 평가 서버에 업로드해야 하는 텍스트 파일로 내보내야 합니다. ImageNet 평가 서버의 관리자는 과적합을 방지하기 위해 단일 사용자가 주당 최대 2개의 제출물을 제출할 수 있도록 허용합니다.

테스트 분할의 정확도를 평가하려면 먼저 image-net.org에서 계정을 만들어야 합니다. 이 계정은 사이트 관리자의 승인을 받아야 합니다. 계정이 생성되면 https://image-net.org/challenges/LSVRC/eval_server.php 에서 테스트 서버에 결과를 제출할 수 있습니다. 제출은 여러 작업에 해당하는 여러 ASCII 텍스트 파일로 구성됩니다. 관심 있는 작업은 "분류 제출(상위 5개 cls 오류)"입니다. 내보낸 텍스트 파일의 샘플은 다음과 같습니다.

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

내보내기 형식은 https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz 에서 사용할 수 있는 2013 개발 키트 내의 "readme.txt"에 자세히 설명되어 있습니다. "3.3 CLS-LOC 제출 형식". 간단히 말해서 텍스트 파일의 형식은 테스트 분할의 각 이미지에 해당하는 100,000줄입니다. 정수의 각 라인은 각 테스트 이미지에 대한 상위 5개 예측의 순위 정렬에 해당합니다. 정수는 해당 레이블 파일의 줄 번호에 해당하는 1인덱스입니다. labels.txt를 참조하십시오.

  • 추가 문서 : 코드가 있는 논문에서 탐색

  • 홈페이지 : https://image-net.org/

  • 소스코드 : tfds.datasets.imagenet2012.Builder

  • 버전 :

    • 2.0.0 : 유효성 검사 레이블을 수정합니다.
    • 2.0.1 : 인코딩 수정. 사용자 관점에서 변경 사항이 없습니다.
    • 3.0.0 : ~12개 이미지의 색상화 수정(CMYK -> RGB). 일관성을 위해 형식을 수정합니다(단일 png 이미지를 Jpeg로 변환). 아카이브에서 직접 읽기 속도가 빨라집니다.

    • 4.0.0 : (미공개)

    • 5.0.0 : 새로운 분할 API( https://tensorflow.org/datasets/splits )

    • 5.1.0 (기본값): 테스트 분할이 추가되었습니다.

  • 다운로드 크기 : Unknown size

  • 데이터세트 크기 : 155.84 GiB

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir 에 수동으로 다운로드해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    manual_dir에는 ILSVRC2012_img_train.tar 및 ILSVRC2012_img_val.tar의 두 파일이 포함되어야 합니다. 데이터 세트를 다운로드할 수 있는 링크를 얻으려면 https://image-net.org/download-images 에 등록해야 합니다.

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • 기능 구조 :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
파일 이름 텍스트
영상 영상 (없음, 없음, 3) uint8
상표 클래스 레이블 int64

심상

  • 인용 :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}