- توضیحات :
DART (تولید رکورد داده به متن) حاوی رابطه موجودیت RDF است که با توضیحات جملاتی مشروح شده است که تمام حقایق در مجموعه سه گانه را پوشش می دهد. DART با استفاده از مجموعه داده های موجود مانند: WikiTableQuestions، WikiSQL، WebNLG و Cleaned E2E ساخته شد. جداول از WikiTableQuestions و WikiSQL به سه گانه موضوع - محمول - مفعول تبدیل شدند و حاشیهنویسیهای متنی آن عمدتاً از MTurk جمعآوری شد. نمایشهای معنیدار در E2E نیز به سهگانه تبدیل شدند و از توصیفهای آن استفاده شد، برخی که قابل تبدیل نبودند حذف شدند.
تقسیم دادههای E2E و WebNLG حفظ میشوند و برای WikiTableQuestions و WikiSQL از شباهت Jaccard برای نگهداری جداول مشابه در یک مجموعه (train/dev/tes) استفاده میشود.
این مجموعه داده بر اساس یک قالب جدول استاندارد ساخته شده است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/Yale-LILY/dart
کد منبع :
tfds.structured.dart.Dart
نسخه ها :
-
0.1.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
249.71 MiB
حجم مجموعه داده :
38.83 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 12552 |
'train' | 62659 |
'validation' | 6980 |
- ساختار ویژگی :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
متن ورودی | FeaturesDict | |||
input_text/table | توالی | |||
input_text/table/column_header | تانسور | رشته | ||
input_text/table/content | تانسور | رشته | ||
input_text/table/row_number | تانسور | int16 | ||
هدف_متن | تانسور | رشته |
کلیدهای نظارت شده (مشاهده به عنوان_سند_نظارت
as_supervised
):('input_text', 'target_text')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}