- বর্ণনা :
WikiBio উইকিপিডিয়া জীবনী পৃষ্ঠাগুলি ব্যবহার করে তৈরি করা হয়েছে, এতে প্রথম অনুচ্ছেদ এবং তথ্যবক্স টোকেনাইজড রয়েছে। ডেটাসেট একটি স্ট্যান্ডার্ড সারণী বিন্যাস অনুসরণ করে।
হোমপেজ : https://github.com/DavidGrangier/wikipedia-biography-dataset
সোর্স কোড :
tfds.structured.WikiBio
সংস্করণ :
-
0.1.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
318.53 MiB
ডেটাসেটের আকার :
795.98 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 72,831 |
'train' | 582,659 |
'validation' | 72,831 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'input_text': FeaturesDict({
'context': string,
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
input_text | ফিচারসডিক্ট | |||
ইনপুট_টেক্সট/প্রসঙ্গ | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল | ক্রম | |||
ইনপুট_টেক্সট/টেবিল/কলাম_হেডার | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল/সামগ্রী | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল/সারি_সংখ্যা | টেনসর | int16 | ||
টার্গেট_টেক্সট | টেনসর | স্ট্রিং |
তত্ত্বাবধান করা কী (
as_supervised
ডক হিসেবে ):('input_text', 'target_text')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{lebret-etal-2016-neural,
title = "Neural Text Generation from Structured Data with Application to the Biography Domain",
author = "Lebret, R{'e}mi and
Grangier, David and
Auli, Michael",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D16-1128",
doi = "10.18653/v1/D16-1128",
pages = "1203--1213",
}