- Descrizione :
AG è una raccolta di oltre 1 milione di articoli di notizie. Gli articoli di notizie sono stati raccolti da più di 2000 fonti di notizie da ComeToMyHead in più di 1 anno di attività. ComeToMyHead è un motore di ricerca di notizie accademiche attivo dal luglio 2004. Il set di dati è fornito dalla comunità accademica per scopi di ricerca nel data mining (clustering, classificazione, ecc.), recupero di informazioni (classifica, ricerca, ecc.), xml, compressione dei dati, streaming dei dati e qualsiasi altra attività non commerciale. Per maggiori informazioni si rimanda al link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
Il set di dati di classificazione degli argomenti delle notizie dell'AG è stato costruito da Xiang Zhang (xiang.zhang@nyu.edu) dal set di dati sopra. È usato come punto di riferimento per la classificazione del testo nel seguente documento: Xiang Zhang, Junbo Zhao, Yann LeCun. Reti convoluzionali a livello di carattere per la classificazione del testo. Progressi nei sistemi di elaborazione delle informazioni neurali 28 (NIPS 2015).
Il set di dati di classificazione degli argomenti delle notizie dell'AG è costruito scegliendo le 4 classi più grandi dal corpus originale. Ogni classe contiene 30.000 campioni di addestramento e 1.900 campioni di test. Il numero totale di campioni di addestramento è 120.000 e di test 7.600.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://arxiv.org/abs/1509.01626
Codice sorgente :
tfds.datasets.ag_news_subset.Builder
Versioni :
-
1.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
11.24 MiB
Dimensione del set di dati:
35.79 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 7.600 |
'train' | 120.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
descrizione | Testo | corda | ||
etichetta | ClassLabel | int64 | ||
titolo | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('description', 'label')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}