doc_nli

Mô tả :

DocNLI là một bộ dữ liệu quy mô lớn dành cho suy luận ngôn ngữ tự nhiên ở cấp độ tài liệu (NLI). DocNLI được chuyển đổi từ một loạt các vấn đề NLP và bao gồm nhiều thể loại văn bản. Các tiền đề luôn nằm trong độ chi tiết của tài liệu, trong khi các giả thuyết có độ dài khác nhau từ các câu đơn lẻ đến các đoạn văn có hàng trăm từ. Trái ngược với một số bộ dữ liệu NLI cấp câu hiện có, DocNLI có các thành phần tạo tác khá hạn chế.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/salesforce/DocNLI/
Mã nguồn : tfds.text.docnli.DocNLI
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Kích thước tải xuống : 313.89 MiB
Kích thước tập dữ liệu : 3.07 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	267.086
`'train'`	942,314
`'validation'`	234,258

Cấu trúc tính năng :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
giả thuyết	Chữ	sợi dây
nhãn mác	LớpNhãn	int64
tiền đề	Chữ	sợi dây

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}

doc_nli Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

doc_nli