- Mô tả :
Tập dữ liệu phân loại câu hỏi hội nghị truy xuất văn bản (TREC) chứa 5500 câu hỏi được dán nhãn trong tập huấn luyện và 500 câu hỏi khác cho tập kiểm tra. Tập dữ liệu có 6 nhãn, 47 nhãn cấp 2. Độ dài trung bình của mỗi câu là 10, kích thước từ vựng là 8700. Dữ liệu được thu thập từ bốn nguồn: 4.500 câu hỏi tiếng Anh do USC xuất bản (Hovy et al., 2001), khoảng 500 câu hỏi được tạo thủ công cho một số lớp hiếm, 894 TREC 8 và TREC 9 câu hỏi và 500 câu hỏi từ TREC 10 dùng làm bộ kiểm tra.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://cogcomp.seas.upenn.edu/Data/QA/QC/
Mã nguồn :
tfds.datasets.trec.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
350.79 KiB
Kích thước tập dữ liệu :
636.90 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 500 |
'train' | 5,452 |
- Cấu trúc tính năng :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
nhãn-thô | LớpNhãn | int64 | ||
nhãn tốt | LớpNhãn | int64 | ||
chữ | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}