- Descrição :
AG é uma coleção de mais de 1 milhão de artigos de notícias. Artigos de notícias foram coletados de mais de 2.000 fontes de notícias por ComeToMyHead em mais de 1 ano de atividade. ComeToMyHead é um mecanismo de busca de notícias acadêmicas em funcionamento desde julho de 2004. O conjunto de dados é fornecido pela comunidade acadêmica para fins de pesquisa em mineração de dados (agrupamento, classificação etc.), recuperação de informações (classificação, pesquisa etc.), xml, compactação de dados, streaming de dados e qualquer outra atividade não comercial. Para mais informações, consulte o link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
O conjunto de dados de classificação de tópicos de notícias do AG foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. Ele é usado como referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Avanços em Sistemas de Processamento de Informação Neural 28 (NIPS 2015).
O conjunto de dados de classificação de tópicos de notícias do AG é construído escolhendo as 4 maiores classes do corpus original. Cada classe contém 30.000 amostras de treinamento e 1.900 amostras de teste. O número total de amostras de treinamento é 120.000 e de teste 7.600.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://arxiv.org/abs/1509.01626
Código -fonte:
tfds.datasets.ag_news_subset.BuilderVersões :
-
1.0.0(padrão): sem notas de versão.
-
Tamanho do download :
11.24 MiBTamanho do conjunto de dados :
35.79 MiBCache automático ( documentação ): Sim
Divisões :
| Dividir | Exemplos |
|---|---|
'test' | 7.600 |
'train' | 120.000 |
- Estrutura de recursos :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
| Característica | Classe | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| Descrição | Texto | corda | ||
| etiqueta | ClassLabel | int64 | ||
| título | Texto | corda |
Chaves supervisionadas (Consulte
as_superviseddoc ):('description', 'label')Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}