- विवरण :
IRC डिसेंटैंगलमेंट डेटासेट में Ubuntu IRC चैनल के 77,563 से अधिक संदेश शामिल हैं।
सुविधाओं में संदेश आईडी, संदेश पाठ और टाइमस्टैम्प शामिल हैं। लक्ष्य उन संदेशों की सूची है जिनका वर्तमान संदेश उत्तर देता है। प्रत्येक रिकॉर्ड में IRC चैट के एक दिन के संदेशों की सूची होती है।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://jkk.name/irc-disentanglement
स्रोत कोड :
tfds.datasets.irc_disentanglement.Builderसंस्करण :
-
2.0.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
113.53 MiBडेटासेट का आकार :
26.59 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- फ़ीचर संरचना :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| दिन | क्रम | |||
| दिन/आईडी | मूलपाठ | डोरी | ||
| दिन/माता-पिता | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी | |
| दिन / पाठ | मूलपाठ | डोरी | ||
| दिन/टाइमस्टैम्प | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}