- Descrição :
ILSVRC 2012, comumente conhecido como 'ImageNet' é um conjunto de dados de imagens organizado de acordo com a hierarquia WordNet. Cada conceito significativo no WordNet, possivelmente descrito por várias palavras ou frases de palavras, é chamado de "conjunto de sinônimos" ou "synset". Existem mais de 100.000 synsets no WordNet, a maioria deles são substantivos (mais de 80.000). No ImageNet, pretendemos fornecer em média 1000 imagens para ilustrar cada synset. As imagens de cada conceito são controladas por qualidade e anotadas por humanos. Ao final, esperamos que o ImageNet ofereça dezenas de milhões de imagens ordenadas de forma limpa para a maioria dos conceitos na hierarquia do WordNet.
A divisão de teste contém 100 mil imagens, mas nenhum rótulo porque nenhum rótulo foi divulgado publicamente. Fornecemos suporte para a divisão de teste de 2012 com o patch secundário lançado em 10 de outubro de 2019. Para baixar manualmente esses dados, o usuário deve realizar as seguintes operações:
- Baixe a divisão de teste de 2012 disponível aqui .
- Baixe o patch de 10 de outubro de 2019. Há um link do Google Drive para o patch fornecido na mesma página.
- Combine as duas tar-balls, substituindo manualmente quaisquer imagens do arquivo original pelas imagens do patch. De acordo com as instruções em image-net.org, este procedimento substitui apenas algumas imagens.
O tar-ball resultante pode então ser processado pelo TFDS.
Para avaliar a precisão de um modelo na divisão de teste do ImageNet, é necessário executar a inferência em todas as imagens da divisão e exportar esses resultados para um arquivo de texto que deve ser carregado no servidor de avaliação do ImageNet. Os mantenedores do servidor de avaliação ImageNet permitem que um único usuário envie até 2 envios por semana para evitar overfitting.
Para avaliar a precisão da divisão de teste, primeiro é necessário criar uma conta em image-net.org. Esta conta deve ser aprovada pelo administrador do site. Após a criação da conta, pode-se enviar os resultados ao servidor de teste em https://image-net.org/challenges/LSVRC/eval_server.php O envio consiste em vários arquivos de texto ASCII correspondentes a múltiplas tarefas. A tarefa de interesse é "Envio de classificação (erro top-5 cls)". Um exemplo de um arquivo de texto exportado tem a seguinte aparência:
771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168
O formato de exportação é descrito na íntegra em "readme.txt" no kit de desenvolvimento de 2013 disponível aqui: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Consulte a seção intitulada "3.3 CLS-LOC formato de submissão". Resumidamente, o formato do arquivo de texto é de 100.000 linhas correspondentes a cada imagem na divisão de teste. Cada linha de números inteiros corresponde às 5 principais previsões ordenadas por classificação para cada imagem de teste. Os inteiros são indexados em 1 correspondendo ao número da linha no arquivo de rótulos correspondente. Consulte rótulos.txt.
Documentação adicional : Explore artigos com código
Página inicial : https://image-net.org/
Código fonte :
tfds.datasets.imagenet2012.Builder
Versões :
-
2.0.0
: Corrija rótulos de validação. -
2.0.1
: Correção de codificação. Nenhuma alteração do ponto de vista do usuário. 3.0.0
: Corrige a colorização em aproximadamente 12 imagens (CMYK -> RGB). Corrija o formato para consistência (converta a imagem PNG única em JPEG). Leitura de geração mais rápida diretamente do arquivo.4.0.0
: (não publicado)5.0.0
: Nova API dividida ( https://tensorflow.org/datasets/splits )5.1.0
(padrão): Adicionada divisão de teste.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
155.84 GiB
Instruções de download manual : este conjunto de dados requer que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
manual_dir deve conter dois arquivos: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. Você precisa se registrar em https://image-net.org/download-images para obter o link para baixar o conjunto de dados.Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 100.000 |
'train' | 1.281.167 |
'validation' | 50.000 |
- Estrutura de recursos :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
nome do arquivo | Texto | corda | ||
imagem | Imagem | (Nenhum, Nenhum, 3) | uint8 | |
rótulo | ClassLabel | int64 |
Chaves supervisionadas (consulte o documento
as_supervised
):('image', 'label')
Figura ( tfds.show_examples ):
- Exemplos ( tfds.as_dataframe ):
- Citação :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}