- Mô tả:
DocNLI là một bộ dữ liệu quy mô lớn dành cho suy luận ngôn ngữ tự nhiên (NLI) ở cấp độ tài liệu. DocNLI được chuyển đổi từ một loạt các vấn đề NLP và bao gồm nhiều thể loại văn bản. Các tiền đề luôn ở mức độ chi tiết của tài liệu, trong khi các giả thuyết có độ dài khác nhau, từ các câu đơn đến các đoạn văn có hàng trăm từ. Trái ngược với một số bộ dữ liệu NLI cấp câu hiện có, DocNLI có khá hạn chế.
Trang chủ: https://github.com/salesforce/DocNLI/
Source code:
tfds.text.docnli.DocNLI
phiên bản:
-
1.0.0
(mặc định): Phiên bản đầu tiên.
-
Dung lượng tải về:
313.89 MiB
Kích thước tập dữ liệu:
3.07 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'test' | 267.086 |
'train' | 942.314 |
'validation' | 234.258 |
- Các tính năng:
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'premise': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn:
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}