irc_disentanglement

  • 설명 :

IRC Disentanglement 데이터 세트에는 Ubuntu IRC 채널의 77,563개 이상의 메시지가 포함되어 있습니다.

기능에는 메시지 ID, 메시지 텍스트 및 타임스탬프가 포함됩니다. 대상은 현재 메시지가 회신하는 메시지 목록입니다. 각 레코드에는 IRC 채팅의 하루 메시지 목록이 포함되어 있습니다.

나뉘다
'test' 10
'train' 153
'validation' 10
  • 기능 구조 :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
순서
요일/ID 텍스트
일/부모 시퀀스(텍스트) (없음,)
일/문자 텍스트
날짜/타임스탬프 텍스트
  • 인용 :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}