ag_news_sottoinsieme

  • Descrizione :

AG è una raccolta di oltre 1 milione di articoli di notizie. Gli articoli di notizie sono stati raccolti da più di 2000 fonti di notizie da ComeToMyHead in più di 1 anno di attività. ComeToMyHead è un motore di ricerca di notizie accademiche attivo dal luglio 2004. Il set di dati è fornito dalla comunità accademica per scopi di ricerca nel data mining (clustering, classificazione, ecc.), recupero di informazioni (classifica, ricerca, ecc.), xml, compressione dei dati, streaming dei dati e qualsiasi altra attività non commerciale. Per maggiori informazioni si rimanda al link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Il set di dati di classificazione degli argomenti delle notizie dell'AG è stato costruito da Xiang Zhang (xiang.zhang@nyu.edu) dal set di dati sopra. È usato come punto di riferimento per la classificazione del testo nel seguente documento: Xiang Zhang, Junbo Zhao, Yann LeCun. Reti convoluzionali a livello di carattere per la classificazione del testo. Progressi nei sistemi di elaborazione delle informazioni neurali 28 (NIPS 2015).

Il set di dati di classificazione degli argomenti delle notizie dell'AG è costruito scegliendo le 4 classi più grandi dal corpus originale. Ogni classe contiene 30.000 campioni di addestramento e 1.900 campioni di test. Il numero totale di campioni di addestramento è 120.000 e di test 7.600.

Diviso Esempi
'test' 7.600
'train' 120.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
descrizione Testo corda
etichetta ClassLabel int64
titolo Testo corda
  • Citazione :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}