doc_nli

  • 説明:

DocNLI は、ドキュメント レベルの自然言語推論 (NLI) のための大規模なデータセットです。 DocNLI は、幅広い NLP 問題から変換され、複数のジャンルのテキストをカバーします。前提は常にドキュメントの粒度にとどまりますが、仮説の長さは単一の文から数百語のパッセージまでさまざまです。一部の既存の文レベルの NLI データセットとは対照的に、DocNLI のアーティファクトはかなり限られています。

スプリット
'test' 267,086
'train' 942,314
'validation' 234,258
  • 機能構造:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
仮説文章ストリング
ラベルクラスラベルint64
前提文章ストリング
  • 引用
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}