- Descrição :
O conjunto de dados Text REtrieval Conference (TREC) Question Classification contém 5.500 questões rotuladas no conjunto de treinamento e outras 500 para o conjunto de teste. O conjunto de dados tem 6 rótulos, 47 rótulos de nível 2. O comprimento médio de cada frase é 10, o tamanho do vocabulário é de 8.700. Os dados são coletados de quatro fontes: 4.500 questões de inglês publicadas pela USC (Hovy et al., 2001), cerca de 500 questões construídas manualmente para algumas classes raras, 894 TREC 8 e TREC 9 questões e também 500 questões do TREC 10 que serve como conjunto de teste.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://cogcomp.seas.upenn.edu/Data/QA/QC/
Código-fonte :
tfds.datasets.trec.Builder
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
350.79 KiB
Tamanho do conjunto de dados :
636.90 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 500 |
'train' | 5.452 |
- Estrutura de recursos :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
rótulo grosseiro | ClassLabel | int64 | ||
rótulo fino | ClassLabel | int64 | ||
texto | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}