trec

  • Mô tả :

Tập dữ liệu phân loại câu hỏi hội nghị truy xuất văn bản (TREC) chứa 5500 câu hỏi được dán nhãn trong tập huấn luyện và 500 câu hỏi khác cho tập kiểm tra. Tập dữ liệu có 6 nhãn, 47 nhãn cấp 2. Độ dài trung bình của mỗi câu là 10, kích thước từ vựng là 8700. Dữ liệu được thu thập từ bốn nguồn: 4.500 câu hỏi tiếng Anh do USC xuất bản (Hovy et al., 2001), khoảng 500 câu hỏi được tạo thủ công cho một số lớp hiếm, 894 TREC 8 và TREC 9 câu hỏi và 500 câu hỏi từ TREC 10 dùng làm bộ kiểm tra.

Tách ra ví dụ
'test' 500
'train' 5,452
  • Cấu trúc tính năng :
FeaturesDict({
    'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
nhãn-thô LớpNhãn int64
nhãn tốt LớpNhãn int64
chữ Chữ sợi dây
  • trích dẫn :
@inproceedings{li-roth-2002-learning,
    title = "Learning Question Classifiers",
    author = "Li, Xin  and
      Roth, Dan",
    booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
    year = "2002",
    url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
    title = "Toward Semantics-Based Answer Pinpointing",
    author = "Hovy, Eduard  and
      Gerber, Laurie  and
      Hermjakob, Ulf  and
      Lin, Chin-Yew  and
      Ravichandran, Deepak",
    booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
    year = "2001",
    url = "https://www.aclweb.org/anthology/H01-1069",
}