- বর্ণনা :
উইকিপিডিয়া - ছবি/ক্যাপশন ম্যাচিং কাগল প্রতিযোগিতা।
এই প্রতিযোগিতাটি উইকিমিডিয়া ফাউন্ডেশনের গবেষণা দল গুগল রিসার্চ এবং কিছু বহিরাগত সহযোগীদের সহযোগিতায় সংগঠিত করেছে। এই প্রতিযোগিতাটি এই SIGIR গবেষণাপত্রে বিস্তারিত হিসাবে Google গবেষণা দ্বারা প্রকাশিত WIT ডেটাসেটের উপর ভিত্তি করে।
এই প্রতিযোগিতায়, আপনি এমন একটি মডেল তৈরি করবেন যা স্বয়ংক্রিয়ভাবে একটি চিত্রের নিকটতম পাঠ্যটি পুনরুদ্ধার করে। বিশেষত, আপনি আপনার মডেলকে প্রদত্ত ছবিগুলিকে একাধিক ভাষায় নিবন্ধের শিরোনাম বা জটিল ক্যাপশনের সাথে সংযুক্ত করতে প্রশিক্ষণ দেবেন। সেরা মডেলগুলি উইকিপিডিয়া চিত্রগুলির শব্দার্থগত গ্রানুলারিটির জন্য দায়ী। সফল হলে, আপনি বৃহত্তম অনলাইন বিশ্বকোষের অ্যাক্সেসযোগ্যতায় অবদান রাখবেন। উইকিপিডিয়ার লক্ষ লক্ষ পাঠক এবং সম্পাদকরা মিডিয়াকে সহজে বুঝতে, অনুসন্ধান করতে এবং বর্ণনা করতে সক্ষম হবেন। ফলস্বরূপ, আপনি সবার জন্য শেখার উন্নতি করতে একটি উন্মুক্ত মডেলে অবদান রাখবেন।
হোমপেজ : https://www.kaggle.com/c/wikipedia-image-caption/code
উত্স কোড :
tfds.vision_language.wit_kaggle.WitKaggle
সংস্করণ :
1.0.0
: প্রাথমিক প্রকাশ। এটি উইকিপিডিয়া - চিত্র/ক্যাপশন ম্যাচিং কাগল প্রতিযোগিতা ( https://www.kaggle.com/c/wikipedia-image-caption/data ) থেকে ট্রেন এবং পরীক্ষার ডেটাসেট প্রদান করে।প্রতিযোগিতার লক্ষ্য হল এমন একটি মডেল তৈরি করা যা স্বয়ংক্রিয়ভাবে একটি চিত্রের নিকটতম পাঠ্যটি পুনরুদ্ধার করে। বিশেষ করে, মডেলটিকে প্রদত্ত ছবিকে নিবন্ধের শিরোনাম বা জটিল ক্যাপশনের সাথে একাধিক ভাষায় সংযুক্ত করার জন্য প্রশিক্ষিত করা উচিত। সেরা মডেলগুলি উইকিপিডিয়া চিত্রগুলির শব্দার্থগত গ্রানুলারিটির জন্য দায়ী।
মনে রাখবেন যে এই রিলিজটি পরীক্ষার সেটের জন্য গ্রাউন্ড ট্রুথ প্রদান করে না, কারণ এটি এখনও Kaggle প্রতিযোগিতা দ্বারা প্রদান করা হয়নি।
মনে রাখবেন যে সমস্ত প্রশিক্ষণ পর্যবেক্ষণে সংশ্লিষ্ট চিত্র ডেটা নেই। মুক্তিপ্রাপ্ত ছবিগুলি মানুষের ধারণ করা সমস্ত ছবি বাদ দেয়৷ যে নমুনাগুলি ইমেজ ডেটার সাথে যুক্ত নয় তাদের জন্য, নিম্নলিখিত চিত্র বৈশিষ্ট্যগুলি ব্যবহার করা হয়:
image
একটি বাইট-64 এনকোড করা ফাঁকা চিত্র,embedding
হল 2048 শূন্যের একটি ভেক্টর৷প্রতিযোগিতার জন্য প্রকাশিত নমুনাগুলি এইভাবে লোড করা যেতে পারে:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: বিম পাইপলাইন অপ্টিমাইজ করুন সংগ্রামীদের এড়াতে, ছবির URL ছাড়া সারি উপেক্ষা করুন৷ এছাড়াও আরো বীম কাউন্টার যোগ করা হয়েছে।1.0.2
(ডিফল্ট): বুলিয়ান ক্ষেত্রগুলির পার্সিং সংশোধন করে।
ডাউনলোড আকার :
Unknown size
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
বলা কনফিগারের উপর নির্ভর করে, manual_dir-এ নিম্নলিখিত কিছু সাবডিরেক্টরি থাকা উচিত:- ট্রেন
- ট্রেন-{0000x}-of-00005.tsv.zip
- ছবি_ডেটা_ট্রেন/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- পরীক্ষা
- test.tsv.zip
- ছবি_ডেটা_পরীক্ষা/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
ডেটাসেট ডাউনলোড করার জন্য লিঙ্ক পেতে https://www.kaggle.com/c/wikipedia-image-caption/data- এ নিবন্ধন করতে হবে।
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
তত্ত্বাবধান করা কী (
as_supervised
ডক হিসেবে ):('image_url', 'caption_title_and_reference_description')
উদ্ধৃতি :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (ডিফল্ট কনফিগারেশন)
কনফিগারের বিবরণ : উইকিপিডিয়া-ইমেজ/ক্যাপশন ম্যাচিং প্রতিযোগিতার জন্য প্রশিক্ষণের নমুনা।
ডেটাসেটের আকার :
1.16 TiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train_with_extended_features' | 37,046,386 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
attribution_passes_lang_id | টেনসর | bool | ||
caption_alt_text_description | পাঠ্য | স্ট্রিং | ||
caption_attribution_description | পাঠ্য | স্ট্রিং | ||
caption_reference_description | পাঠ্য | স্ট্রিং | ||
caption_title_and_reference_description | পাঠ্য | স্ট্রিং | ||
প্রসঙ্গ_পৃষ্ঠা_বর্ণনা | পাঠ্য | স্ট্রিং | ||
প্রসঙ্গ_বিভাগ_বর্ণনা | পাঠ্য | স্ট্রিং | ||
এমবেডিং | টেনসর | (2048,) | float32 | |
hierarchical_section_title | পাঠ্য | স্ট্রিং | ||
ইমেজ | ছবি | (কোনটিই নয়, 3) | uint8 | |
ছবির ঠিকানা | পাঠ্য | স্ট্রিং | ||
is_main_image | টেনসর | bool | ||
ভাষা | পাঠ্য | স্ট্রিং | ||
মেটাডেটা_ইউআরএল | পাঠ্য | স্ট্রিং | ||
MIME ধরণ | পাঠ্য | স্ট্রিং | ||
মূল_উচ্চতা | টেনসর | int32 | ||
মূল_প্রস্থ | টেনসর | int32 | ||
পৃষ্ঠা_পরিবর্তিত_সম্প্রতি | টেনসর | bool | ||
পেজের টাইটেল | পাঠ্য | স্ট্রিং | ||
page_url | পাঠ্য | স্ট্রিং | ||
বিভাগ_শিরোনাম | পাঠ্য | স্ট্রিং |
- চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
কনফিগারেশনের বিবরণ : উইকিপিডিয়া-ইমেজ/ক্যাপশন ম্যাচিং প্রতিযোগিতার জন্য পরীক্ষা নমুনা (স্বর্ণ উত্তর ছাড়া)।
ডেটাসেটের আকার :
3.37 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test_without_gold' | ৯২,৩৬৬ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
caption_title_and_reference_description | পাঠ্য | স্ট্রিং | ||
এমবেডিং | টেনসর | (2048,) | float32 | |
আইডি | পাঠ্য | স্ট্রিং | ||
ইমেজ | ছবি | (কোনটিই নয়, 3) | uint8 | |
ছবির ঠিকানা | পাঠ্য | স্ট্রিং | ||
মেটাডেটা_ইউআরএল | পাঠ্য | স্ট্রিং |
- চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):