- Descrição :
AG é uma coleção de mais de 1 milhão de artigos de notícias. Artigos de notícias foram coletados de mais de 2.000 fontes de notícias por ComeToMyHead em mais de 1 ano de atividade. ComeToMyHead é um mecanismo de busca de notícias acadêmicas em funcionamento desde julho de 2004. O conjunto de dados é fornecido pela comunidade acadêmica para fins de pesquisa em mineração de dados (agrupamento, classificação etc.), recuperação de informações (classificação, pesquisa etc.), xml, compactação de dados, streaming de dados e qualquer outra atividade não comercial. Para mais informações, consulte o link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
O conjunto de dados de classificação de tópicos de notícias do AG foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. Ele é usado como referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Avanços em Sistemas de Processamento de Informação Neural 28 (NIPS 2015).
O conjunto de dados de classificação de tópicos de notícias do AG é construído escolhendo as 4 maiores classes do corpus original. Cada classe contém 30.000 amostras de treinamento e 1.900 amostras de teste. O número total de amostras de treinamento é 120.000 e de teste 7.600.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://arxiv.org/abs/1509.01626
Código -fonte:
tfds.datasets.ag_news_subset.Builder
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
11.24 MiB
Tamanho do conjunto de dados :
35.79 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 7.600 |
'train' | 120.000 |
- Estrutura de recursos :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Descrição | Texto | corda | ||
etiqueta | ClassLabel | int64 | ||
título | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('description', 'label')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}