ag_news_subset

  • Descrição :

AG é uma coleção de mais de 1 milhão de artigos de notícias. Artigos de notícias foram coletados de mais de 2.000 fontes de notícias por ComeToMyHead em mais de 1 ano de atividade. ComeToMyHead é um mecanismo de busca de notícias acadêmicas em funcionamento desde julho de 2004. O conjunto de dados é fornecido pela comunidade acadêmica para fins de pesquisa em mineração de dados (agrupamento, classificação etc.), recuperação de informações (classificação, pesquisa etc.), xml, compactação de dados, streaming de dados e qualquer outra atividade não comercial. Para mais informações, consulte o link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

O conjunto de dados de classificação de tópicos de notícias do AG foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. Ele é usado como referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Avanços em Sistemas de Processamento de Informação Neural 28 (NIPS 2015).

O conjunto de dados de classificação de tópicos de notícias do AG é construído escolhendo as 4 maiores classes do corpus original. Cada classe contém 30.000 amostras de treinamento e 1.900 amostras de teste. O número total de amostras de treinamento é 120.000 e de teste 7.600.

Dividir Exemplos
'test' 7.600
'train' 120.000
  • Estrutura de recursos :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
Descrição Texto corda
etiqueta ClassLabel int64
título Texto corda
  • Citação :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}