- Deskripsi :
Dataset Klasifikasi Pertanyaan Konferensi Pengambilan Teks (TREC) berisi 5500 pertanyaan berlabel dalam set pelatihan dan 500 lainnya untuk set tes. Dataset memiliki 6 label, 47 label level-2. Panjang rata-rata setiap kalimat adalah 10, ukuran kosa kata 8700. Data dikumpulkan dari empat sumber: 4.500 pertanyaan bahasa Inggris yang diterbitkan oleh USC (Hovy et al., 2001), sekitar 500 pertanyaan yang dibuat secara manual untuk beberapa kelas langka, 894 TREC 8 dan TREC 9 soal, dan juga 500 soal dari TREC 10 yang berfungsi sebagai test set.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.trec.Builder
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
350.79 KiB
Ukuran dataset :
636.90 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 500 |
'train' | 5.452 |
- Struktur fitur :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
label-kasar | LabelKelas | int64 | ||
label-halus | LabelKelas | int64 | ||
teks | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}