- توضیحات :
ویکی پدیا - مسابقه تطبیق تصویر/کپشن.
این مسابقه توسط تیم تحقیقاتی در بنیاد ویکی مدیا با همکاری Google Research و چند همکار خارجی سازماندهی شده است. این رقابت بر اساس مجموعه داده WIT منتشر شده توسط Google Research است که در این مقاله SIGIR شرح داده شده است.
در این مسابقه، مدلی خواهید ساخت که به طور خودکار متن نزدیک به یک تصویر را بازیابی می کند. به طور خاص، شما به مدل خود آموزش خواهید داد تا تصاویر داده شده را با عناوین مقاله یا زیرنویسهای پیچیده به چندین زبان مرتبط کند. بهترین مدلها برای جزئیات معنایی تصاویر ویکیپدیا توضیح میدهند. در صورت موفقیت، به دسترسی به بزرگترین دایره المعارف آنلاین کمک خواهید کرد. میلیونها خواننده و ویراستار ویکیپدیا میتوانند راحتتر رسانهها را درک، جستجو و توصیف کنند. در نتیجه، شما به یک مدل باز برای بهبود یادگیری برای همه کمک خواهید کرد.
صفحه اصلی : https://www.kaggle.com/c/wikipedia-image-caption/code
نسخه ها :
1.0.0
: انتشار اولیه. این مجموعه دادههای قطار و آزمایشی را از مسابقه Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ) ارائه میکند.هدف این مسابقه ساخت مدلی است که به طور خودکار متن نزدیک به یک تصویر را بازیابی کند. به طور خاص، این مدل باید آموزش داده شود تا تصاویر داده شده را با عناوین مقاله یا زیرنویسهای پیچیده به چندین زبان مرتبط کند. بهترین مدلها برای جزئیات معنایی تصاویر ویکیپدیا توضیح میدهند.
توجه داشته باشید که این نسخه حقیقتی را برای مجموعه آزمایشی ارائه نمی دهد، زیرا هنوز توسط رقابت Kaggle ارائه نشده است.
توجه داشته باشید که همه مشاهدات آموزشی داده های تصویری مربوطه ندارند. تصاویر منتشر شده شامل تمام تصاویر حاوی انسان نمی شود. برای نمونههایی که با دادههای تصویر مرتبط نیستند، از ویژگیهای تصویر زیر استفاده میشود:
image
یک تصویر خالی کدگذاری شده با بایت ۶۴ است،embedding
بردار ۲۰۴۸ صفر است.نمونه های منتشر شده برای مسابقه را می توان به صورت زیر بارگذاری کرد:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: خط لوله پرتو را بهینه کنید تا از مبارزات اجتناب کنید، ردیف های بدون URL تصویر را نادیده بگیرید. شمارشگرهای Beam بیشتری نیز اضافه شد.1.0.2
(پیش فرض): تجزیه فیلدهای بولی را برطرف می کند.
اندازه دانلود :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
بسته به پیکربندی فراخوانی شده، manual_dir باید شامل برخی از زیر شاخه های زیر باشد:- قطار - تعلیم دادن
- train-{0000x}-of-00005.tsv.zip
- image_data_train/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- تست
- test.tsv.zip
- image_data_test/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
ثبت نام در https://www.kaggle.com/c/wikipedia-image-caption/data برای دریافت پیوندهای دانلود مجموعه داده مورد نیاز است.
ذخیره خودکار ( اسناد ): خیر
کلیدهای تحت نظارت (به
as_supervised
نظارت شده مراجعه کنید):('image_url', 'caption_title_and_reference_description')
نقل قول :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (پیکربندی پیش فرض)
توضیحات پیکربندی : نمونه های آموزشی برای مسابقه تطبیق تصویر/تصویر ویکی پدیا.
اندازه مجموعه داده :
1.16 TiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train_with_extended_features' | 37,046,386 |
- ساختار ویژگی :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
attribution_passes_lang_id | تانسور | بوول | ||
caption_alt_text_description | متن | رشته | ||
caption_attribution_description | متن | رشته | ||
caption_reference_description | متن | رشته | ||
caption_title_and_reference_description | متن | رشته | ||
context_page_description | متن | رشته | ||
context_section_description | متن | رشته | ||
تعبیه کردن | تانسور | (2048،) | float32 | |
hierarchical_section_title | متن | رشته | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
image_url | متن | رشته | ||
is_main_image | تانسور | بوول | ||
زبان | متن | رشته | ||
metadata_url | متن | رشته | ||
mime_type | متن | رشته | ||
ارتفاع_اصلی | تانسور | int32 | ||
عرض_اصلی | تانسور | int32 | ||
page_changed_recently | تانسور | بوول | ||
عنوان صفحه | متن | رشته | ||
page_url | متن | رشته | ||
بخش_عنوان | متن | رشته |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
توضیحات پیکربندی : نمونههای آزمایشی (بدون پاسخ طلایی) برای مسابقه تطبیق تصویر/تصویر ویکیپدیا.
حجم مجموعه داده :
3.37 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test_without_gold' | 92,366 |
- ساختار ویژگی :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
caption_title_and_reference_description | متن | رشته | ||
تعبیه کردن | تانسور | (2048،) | float32 | |
شناسه | متن | رشته | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
image_url | متن | رشته | ||
metadata_url | متن | رشته |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
- توضیحات :
ویکی پدیا - مسابقه تطبیق تصویر/کپشن.
این مسابقه توسط تیم تحقیقاتی در بنیاد ویکی مدیا با همکاری Google Research و چند همکار خارجی سازماندهی شده است. این رقابت بر اساس مجموعه داده WIT منتشر شده توسط Google Research است که در این مقاله SIGIR شرح داده شده است.
در این مسابقه، مدلی خواهید ساخت که به طور خودکار متن نزدیک به یک تصویر را بازیابی می کند. به طور خاص، شما به مدل خود آموزش خواهید داد تا تصاویر داده شده را با عناوین مقاله یا زیرنویسهای پیچیده به چندین زبان مرتبط کند. بهترین مدلها برای جزئیات معنایی تصاویر ویکیپدیا توضیح میدهند. در صورت موفقیت، به دسترسی به بزرگترین دایره المعارف آنلاین کمک خواهید کرد. میلیونها خواننده و ویراستار ویکیپدیا میتوانند راحتتر رسانهها را درک، جستجو و توصیف کنند. در نتیجه، شما به یک مدل باز برای بهبود یادگیری برای همه کمک خواهید کرد.
صفحه اصلی : https://www.kaggle.com/c/wikipedia-image-caption/code
نسخه ها :
1.0.0
: انتشار اولیه. این مجموعه دادههای قطار و آزمایش را از مسابقه Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ) ارائه میکند.هدف این مسابقه ساخت مدلی است که به طور خودکار متن نزدیک به یک تصویر را بازیابی کند. به طور خاص، این مدل باید آموزش داده شود تا تصاویر داده شده را با عناوین مقاله یا زیرنویسهای پیچیده به چندین زبان مرتبط کند. بهترین مدلها برای جزئیات معنایی تصاویر ویکیپدیا توضیح میدهند.
توجه داشته باشید که این نسخه حقیقتی را برای مجموعه آزمایشی ارائه نمی دهد، زیرا هنوز توسط رقابت Kaggle ارائه نشده است.
توجه داشته باشید که همه مشاهدات آموزشی داده های تصویری مربوطه ندارند. تصاویر منتشر شده شامل تمام تصاویر حاوی انسان نمی شود. برای نمونههایی که با دادههای تصویر مرتبط نیستند، از ویژگیهای تصویر زیر استفاده میشود:
image
یک تصویر خالی کدگذاری شده با بایت ۶۴ است،embedding
بردار ۲۰۴۸ صفر است.نمونه های منتشر شده برای مسابقه را می توان به صورت زیر بارگذاری کرد:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: خط لوله پرتو را بهینه کنید تا از مبارزات اجتناب کنید، ردیف های بدون URL تصویر را نادیده بگیرید. شمارشگرهای Beam بیشتری نیز اضافه شد.1.0.2
(پیش فرض): تجزیه فیلدهای بولی را برطرف می کند.
اندازه دانلود :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض به~/tensorflow_datasets/downloads/manual/
):
بسته به پیکربندی فراخوانی شده، manual_dir باید شامل برخی از زیر شاخه های زیر باشد:- قطار - تعلیم دادن
- train-{0000x}-of-00005.tsv.zip
- image_data_train/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- تست
- test.tsv.zip
- image_data_test/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
ثبت نام در https://www.kaggle.com/c/wikipedia-image-caption/data برای دریافت پیوندهای دانلود مجموعه داده مورد نیاز است.
ذخیره خودکار ( اسناد ): خیر
کلیدهای تحت نظارت (به
as_supervised
نظارت شده مراجعه کنید):('image_url', 'caption_title_and_reference_description')
نقل قول :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (پیکربندی پیش فرض)
توضیحات پیکربندی : نمونه های آموزشی برای مسابقه تطبیق تصویر/تصویر ویکی پدیا.
اندازه مجموعه داده :
1.16 TiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train_with_extended_features' | 37,046,386 |
- ساختار ویژگی :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
attribution_passes_lang_id | تانسور | بوول | ||
caption_alt_text_description | متن | رشته | ||
caption_attribution_description | متن | رشته | ||
caption_reference_description | متن | رشته | ||
caption_title_and_reference_description | متن | رشته | ||
context_page_description | متن | رشته | ||
context_section_description | متن | رشته | ||
تعبیه کردن | تانسور | (2048،) | float32 | |
hierarchical_section_title | متن | رشته | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
image_url | متن | رشته | ||
is_main_image | تانسور | بوول | ||
زبان | متن | رشته | ||
metadata_url | متن | رشته | ||
mime_type | متن | رشته | ||
ارتفاع_اصلی | تانسور | int32 | ||
عرض_اصلی | تانسور | int32 | ||
page_changed_recently | تانسور | بوول | ||
عنوان صفحه | متن | رشته | ||
page_url | متن | رشته | ||
بخش_عنوان | متن | رشته |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
توضیحات پیکربندی : نمونههای آزمایشی (بدون پاسخ طلایی) برای مسابقه تطبیق تصویر/تصویر ویکیپدیا.
حجم مجموعه داده :
3.37 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test_without_gold' | 92,366 |
- ساختار ویژگی :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
caption_title_and_reference_description | متن | رشته | ||
تعبیه کردن | تانسور | (2048،) | float32 | |
شناسه | متن | رشته | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
image_url | متن | رشته | ||
metadata_url | متن | رشته |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):