wiki_dialog

  • 설명 :

WikiDialog는 종합적으로 생성된 정보 검색 대화의 대규모 데이터 세트입니다. 데이터 세트의 각 대화에는 영어 Wikipedia의 구절에 근거한 두 명의 화자가 포함되어 있습니다. 한 화자의 발화는 구절의 정확한 문장으로 구성됩니다. 다른 스피커는 큰 언어 모델에 의해 생성됩니다.

나뉘다
'train' 11,264,129
'validation' 113,822
  • 기능 구조 :
FeaturesDict({
    'author_num': Sequence(int32),
    'passage': Text(shape=(), dtype=string),
    'pid': Text(shape=(), dtype=string),
    'sentences': Sequence(Text(shape=(), dtype=string)),
    'title': Text(shape=(), dtype=string),
    'utterances': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
저자_번호 시퀀스(텐서) (없음,) int32
통로 텍스트
pid 텍스트
문장 시퀀스(텍스트) (없음,)
제목 텍스트
발화 시퀀스(텍스트) (없음,)
  • 인용 :
@inproceedings{dai2022dialoginpainting,
  title={Dialog Inpainting: Turning Documents to Dialogs},
  author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2022},
  organization={PMLR}
}

wiki_dialog/OQ(기본 구성)