imagenet2012

O ILSVRC 2012, comumente conhecido como 'ImageNet', é um conjunto de dados de imagem organizado de acordo com a hierarquia do WordNet. Cada conceito significativo no WordNet, possivelmente descrito por várias palavras ou frases de palavras, é chamado de "conjunto de sinônimos" ou "synset". Existem mais de 100.000 synsets no WordNet, a maioria deles são substantivos (80.000+). No ImageNet, pretendemos fornecer em média 1000 imagens para ilustrar cada synset. As imagens de cada conceito são controladas por qualidade e anotadas por humanos. Ao final, esperamos que o ImageNet ofereça dezenas de milhões de imagens ordenadas de forma limpa para a maioria dos conceitos na hierarquia do WordNet.

A divisão de teste contém 100 mil imagens, mas nenhum rótulo porque nenhum rótulo foi divulgado publicamente. Fornecemos suporte para a divisão de teste de 2012 com o patch menor lançado em 10 de outubro de 2019. Para baixar manualmente esses dados, o usuário deve executar as seguintes operações:

  1. Baixe o teste split de 2012 disponível aqui .
  2. Baixe o patch de 10 de outubro de 2019. Há um link do Google Drive para o patch fornecido na mesma página.
  3. Combine os dois tar-balls, sobrescrevendo manualmente quaisquer imagens no arquivo original com imagens do patch. De acordo com as instruções em image-net.org, este procedimento substitui apenas algumas imagens.

O tar-ball resultante pode então ser processado pelo TFDS.

Para avaliar a precisão de um modelo na divisão de teste do ImageNet, deve-se executar a inferência em todas as imagens na divisão, exportar esses resultados para um arquivo de texto que deve ser carregado no servidor de avaliação do ImageNet. Os mantenedores do servidor de avaliação ImageNet permitem que um único usuário envie até 2 envios por semana para evitar o overfitting.

Para avaliar a precisão da divisão de teste, é preciso primeiro criar uma conta em image-net.org. Esta conta deve ser aprovada pelo administrador do site. Depois que a conta é criada, pode-se enviar os resultados para o servidor de teste em https://image-net.org/challenges/LSVRC/eval_server.php O envio consiste em vários arquivos de texto ASCII correspondentes a várias tarefas. A tarefa de interesse é "Envio de classificação (top-5 cls error)". Uma amostra de um arquivo de texto exportado tem a seguinte aparência:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

O formato de exportação é descrito na íntegra em "readme.txt" no kit de desenvolvimento 2013 disponível aqui: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Consulte a seção "3.3 CLS-LOC formato de submissão". Resumidamente, o formato do arquivo de texto é de 100.000 linhas correspondentes a cada imagem na divisão de teste. Cada linha de números inteiros corresponde às 5 principais previsões ordenadas por classificação para cada imagem de teste. Os inteiros são indexados em 1, correspondendo ao número da linha no arquivo de rótulos correspondente. Consulte labels.txt.

  • Documentação Adicional : Explore em Papers With Code

  • Página inicial : https://image-net.org/

  • Código -fonte: tfds.datasets.imagenet2012.Builder

  • Versões :

    • 2.0.0 : Corrige rótulos de validação.
    • 2.0.1 : Correção de codificação. Nenhuma mudança do ponto de vista do usuário.
    • 3.0.0 : Corrige a coloração em ~12 imagens (CMYK -> RGB). Corrija o formato para consistência (converta a única imagem png em Jpeg). Leitura de geração mais rápida diretamente do arquivo.

    • 4.0.0 : (não publicado)

    • 5.0.0 : Nova API dividida ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (padrão): Adicionada divisão de teste.

  • Tamanho do download : Unknown size

  • Tamanho do conjunto de dados : 155.84 GiB

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir deve conter dois arquivos: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. Você precisa se registrar em https://image-net.org/download-images para obter o link para baixar o conjunto de dados.

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Estrutura de recursos :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
nome do arquivo Texto corda
imagem Imagem (Nenhuma, Nenhuma, 3) uint8
etiqueta ClassLabel int64

Visualização

  • Citação :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}