irc_distanglement

  • Descriptif :

L'ensemble de données IRC Disentanglement contient plus de 77 563 messages du canal IRC Ubuntu.

Les fonctionnalités incluent l'identifiant du message, le texte du message et l'horodatage. La cible est la liste des messages auxquels le message actuel répond. Chaque enregistrement contient une liste de messages d'une journée de chat IRC.

Diviser Exemples
'test' dix
'train' 153
'validation' dix
  • Structure des fonctionnalités :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
journée Séquence
jour/identifiant Texte chaîne de caractères
jour/parents Séquence (texte) (Aucun,) chaîne de caractères
jour/texte Texte chaîne de caractères
jour/horodatage Texte chaîne de caractères
  • Citation :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}