- توضیحات :
مجموعه داده های متن تصویری مبتنی بر ویکی پدیا (WIT) یک مجموعه داده چند زبانه بزرگ است. WIT از مجموعه ای تنظیم شده از 37.6 میلیون نمونه تصویر-متن غنی موجودیت با 11.5 میلیون تصویر منحصر به فرد در 108 زبان ویکی پدیا تشکیل شده است. اندازه آن باعث میشود که WIT به عنوان یک مجموعه داده پیشآموزشی برای مدلهای یادگیری ماشین چندوجهی استفاده شود.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research-datasets/wit/
کد منبع :
tfds.vision_language.wit.Wit
نسخه ها :
-
1.0.0
: انتشار اولیه. مجموعه داده WIT را از https://storage.googleapis.com/gresearch/wit/ بارگیری می کند -
1.1.0
(پیشفرض):val
و تقسیمهایtest
اضافه شده است.
-
حجم دانلود :
25.20 GiB
حجم مجموعه داده :
81.17 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 210,166 |
'train' | 37,046,386 |
'val' | 261,024 |
- ساختار ویژگی :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
attribution_passes_lang_id | تانسور | بوول | ||
caption_alt_text_description | متن | رشته | ||
caption_attribution_description | متن | رشته | ||
caption_reference_description | متن | رشته | ||
context_page_description | متن | رشته | ||
context_section_description | متن | رشته | ||
hierarchical_section_title | متن | رشته | ||
image_url | متن | رشته | ||
is_main_image | تانسور | بوول | ||
زبان | متن | رشته | ||
mime_type | متن | رشته | ||
ارتفاع_اصلی | تانسور | int32 | ||
عرض_اصلی | تانسور | int32 | ||
page_changed_recently | تانسور | بوول | ||
عنوان صفحه | متن | رشته | ||
page_url | متن | رشته | ||
بخش_عنوان | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}