Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

cheio de lugares

Descrição :

O conjunto de dados Places foi projetado seguindo os princípios da cognição visual humana. Nosso objetivo é construir um núcleo de conhecimento visual que possa ser usado para treinar sistemas artificiais para tarefas de compreensão visual de alto nível, como contexto de cena, reconhecimento de objetos, previsão de ações e eventos e inferência da teoria da mente.

As categorias semânticas de Locais são definidas por sua função: os rótulos representam o nível de entrada de um ambiente. Para ilustrar, o conjunto de dados tem diferentes categorias de quartos, ou ruas, etc, pois não se age da mesma maneira e não se faz as mesmas previsões do que pode acontecer a seguir, em um quarto de casa, quarto de hotel ou creche. No total, o Places contém mais de 10 milhões de imagens, abrangendo mais de 400 categorias de cenas exclusivas. O conjunto de dados apresenta de 5.000 a 30.000 imagens de treinamento por classe, consistentes com as frequências de ocorrência do mundo real. Usando redes neurais convolucionais (CNN), o conjunto de dados Places permite o aprendizado de recursos profundos de cena para várias tarefas de reconhecimento de cena, com o objetivo de estabelecer novos desempenhos de última geração em benchmarks centrados em cena.

Aqui, fornecemos o banco de dados de locais e as CNNs treinadas para fins de pesquisa acadêmica e educação.

Página inicial : http://places2.csail.mit.edu/
Código -fonte: tfds.datasets.placesfull.Builder
Versões :
- 1.0.0 (padrão): sem notas de versão.
Tamanho do download : 143.56 GiB
Tamanho do conjunto de dados : 136.56 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	10.653.087

Estrutura de recursos :

FeaturesDict({
    'filename': Text(shape=(), dtype=string),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=435),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
nome do arquivo	Texto		corda
imagem	Imagem	(256, 256, 3)	uint8
etiqueta	ClassLabel		int64

Chaves supervisionadas (Consulte as_supervised doc ): ('image', 'label', 'filename')
Figura ( tfds.show_examples ):

Visualização

Exemplos ( tfds.as_dataframe ):

Citação :

@article{zhou2017places,
  title={Places: A 10 million Image Database for Scene Recognition},
  author={Zhou, Bolei and Lapedriza, Agata and Khosla, Aditya and Oliva, Aude and Torralba, Antonio},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year={2017},
  publisher={IEEE}
}