wiki_dialog

  • 説明:

WikiDialog は、総合的に生成された情報探索会話の大規模なデータセットです。データセット内の各会話には、英語版ウィキペディアの一節に基づいた 2 人の話者が含まれています。もう 1 つの話者は、大規模な言語モデルによって生成されます。

スプリット
'train' 11,264,129
'validation' 113,822
  • 機能構造:
FeaturesDict({
    'author_num': Sequence(int32),
    'passage': Text(shape=(), dtype=string),
    'pid': Text(shape=(), dtype=string),
    'sentences': Sequence(Text(shape=(), dtype=string)),
    'title': Text(shape=(), dtype=string),
    'utterances': Sequence(Text(shape=(), dtype=string)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
著者番号シーケンス(テンソル) (なし、) int32
通路文章ストリング
ピッド文章ストリング
文章シーケンス(テキスト) (なし、)ストリング
題名文章ストリング
発話シーケンス(テキスト) (なし、)ストリング
  • 引用
@inproceedings{dai2022dialoginpainting,
  title={Dialog Inpainting: Turning Documents to Dialogs},
  author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2022},
  organization={PMLR}
}

wiki_dialog/OQ (デフォルト設定)