- توضیحات :
مجموعه داده IRC Disentanglement شامل بیش از 77563 پیام از کانال IRC اوبونتو است.
ویژگی ها عبارتند از شناسه پیام، متن پیام و مهر زمان. هدف لیستی از پیام هایی است که پیام فعلی به آنها پاسخ می دهد. هر رکورد حاوی لیستی از پیام های یک روز چت IRC است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://jkk.name/irc-disentanglement
نسخه ها :
-
2.0.0
(پیشفرض): هیچ یادداشت انتشار وجود ندارد.
-
حجم دانلود :
113.53 MiB
حجم مجموعه داده :
26.59 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- ساختار ویژگی :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
روز | توالی | |||
روز/شناسه | متن | رشته | ||
روز / والدین | دنباله (متن) | (هیچ یک،) | رشته | |
روز / متن | متن | رشته | ||
روز/مهر زمان | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}