trec

  • Mô tả:

Tập dữ liệu phân loại câu hỏi của Hội nghị phản hồi văn bản (TREC) chứa 5500 câu hỏi được dán nhãn trong tập huấn luyện và 500 câu hỏi khác dành cho tập kiểm tra. Tập dữ liệu có 6 nhãn, 47 nhãn cấp 2. Độ dài trung bình của mỗi câu là 10, kích thước từ vựng là 8700. Dữ liệu được thu thập từ bốn nguồn: 4.500 câu hỏi tiếng Anh do USC xuất bản (Hovy et al., 2001), khoảng 500 câu hỏi được xây dựng thủ công cho một số lớp hiếm, 894 TREC 8 và TREC 9 câu hỏi và 500 câu hỏi từ TREC 10 đóng vai trò là bộ kiểm tra.

Tách ra Các ví dụ
'test' 500
'train' 5.452
  • Các tính năng:
FeaturesDict({
    'label-coarse': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    'label-fine': ClassLabel(shape=(), dtype=tf.int64, num_classes=47),
    'text': Text(shape=(), dtype=tf.string),
})
  • Trích dẫn:
@inproceedings{li-roth-2002-learning,
    title = "Learning Question Classifiers",
    author = "Li, Xin  and
      Roth, Dan",
    booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
    year = "2002",
    url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
    title = "Toward Semantics-Based Answer Pinpointing",
    author = "Hovy, Eduard  and
      Gerber, Laurie  and
      Hermjakob, Ulf  and
      Lin, Chin-Yew  and
      Ravichandran, Deepak",
    booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
    year = "2001",
    url = "https://www.aclweb.org/anthology/H01-1069",
}