wit_kaggle

  • বর্ণনা :

উইকিপিডিয়া - ছবি/ক্যাপশন ম্যাচিং কাগল প্রতিযোগিতা।

এই প্রতিযোগিতাটি উইকিমিডিয়া ফাউন্ডেশনের গবেষণা দল গুগল রিসার্চ এবং কিছু বহিরাগত সহযোগীদের সহযোগিতায় সংগঠিত করেছে। এই প্রতিযোগিতাটি এই SIGIR গবেষণাপত্রে বিস্তারিত হিসাবে Google গবেষণা দ্বারা প্রকাশিত WIT ডেটাসেটের উপর ভিত্তি করে।

এই প্রতিযোগিতায়, আপনি এমন একটি মডেল তৈরি করবেন যা স্বয়ংক্রিয়ভাবে একটি চিত্রের নিকটতম পাঠ্যটি পুনরুদ্ধার করে। বিশেষত, আপনি আপনার মডেলকে প্রদত্ত ছবিগুলিকে একাধিক ভাষায় নিবন্ধের শিরোনাম বা জটিল ক্যাপশনের সাথে সংযুক্ত করতে প্রশিক্ষণ দেবেন। সেরা মডেলগুলি উইকিপিডিয়া চিত্রগুলির শব্দার্থগত গ্রানুলারিটির জন্য দায়ী। সফল হলে, আপনি বৃহত্তম অনলাইন বিশ্বকোষের অ্যাক্সেসযোগ্যতায় অবদান রাখবেন। উইকিপিডিয়ার লক্ষ লক্ষ পাঠক এবং সম্পাদকরা মিডিয়াকে সহজে বুঝতে, অনুসন্ধান করতে এবং বর্ণনা করতে সক্ষম হবেন। ফলস্বরূপ, আপনি সবার জন্য শেখার উন্নতি করতে একটি উন্মুক্ত মডেলে অবদান রাখবেন।

  • হোমপেজ : https://www.kaggle.com/c/wikipedia-image-caption/code

  • উত্স কোড : tfds.vision_language.wit_kaggle.WitKaggle

  • সংস্করণ :

    • 1.0.0 : প্রাথমিক প্রকাশ। এটি উইকিপিডিয়া - চিত্র/ক্যাপশন ম্যাচিং কাগল প্রতিযোগিতা ( https://www.kaggle.com/c/wikipedia-image-caption/data ) থেকে ট্রেন এবং পরীক্ষার ডেটাসেট প্রদান করে।

      প্রতিযোগিতার লক্ষ্য হল এমন একটি মডেল তৈরি করা যা স্বয়ংক্রিয়ভাবে একটি চিত্রের নিকটতম পাঠ্যটি পুনরুদ্ধার করে। বিশেষ করে, মডেলটিকে প্রদত্ত ছবিকে নিবন্ধের শিরোনাম বা জটিল ক্যাপশনের সাথে একাধিক ভাষায় সংযুক্ত করার জন্য প্রশিক্ষিত করা উচিত। সেরা মডেলগুলি উইকিপিডিয়া চিত্রগুলির শব্দার্থগত গ্রানুলারিটির জন্য দায়ী।

      মনে রাখবেন যে এই রিলিজটি পরীক্ষার সেটের জন্য গ্রাউন্ড ট্রুথ প্রদান করে না, কারণ এটি এখনও Kaggle প্রতিযোগিতা দ্বারা প্রদান করা হয়নি।

      মনে রাখবেন যে সমস্ত প্রশিক্ষণ পর্যবেক্ষণে সংশ্লিষ্ট চিত্র ডেটা নেই। মুক্তিপ্রাপ্ত ছবিগুলি মানুষের ধারণ করা সমস্ত ছবি বাদ দেয়৷ যে নমুনাগুলি ইমেজ ডেটার সাথে যুক্ত নয় তাদের জন্য, নিম্নলিখিত চিত্র বৈশিষ্ট্যগুলি ব্যবহার করা হয়: image একটি বাইট-64 এনকোড করা ফাঁকা চিত্র, embedding হল 2048 শূন্যের একটি ভেক্টর৷

      প্রতিযোগিতার জন্য প্রকাশিত নমুনাগুলি এইভাবে লোড করা যেতে পারে: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : বিম পাইপলাইন অপ্টিমাইজ করুন সংগ্রামীদের এড়াতে, ছবির URL ছাড়া সারি উপেক্ষা করুন৷ এছাড়াও আরো বীম কাউন্টার যোগ করা হয়েছে।

    • 1.0.2 (ডিফল্ট): বুলিয়ান ক্ষেত্রগুলির পার্সিং সংশোধন করে।

  • ডাউনলোড আকার : Unknown size

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    বলা কনফিগারের উপর নির্ভর করে, manual_dir-এ নিম্নলিখিত কিছু সাবডিরেক্টরি থাকা উচিত:

    • ট্রেন
    • ট্রেন-{0000x}-of-00005.tsv.zip
    • ছবি_ডেটা_ট্রেন/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • পরীক্ষা
    • test.tsv.zip
    • ছবি_ডেটা_পরীক্ষা/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

ডেটাসেট ডাউনলোড করার জন্য লিঙ্ক পেতে https://www.kaggle.com/c/wikipedia-image-caption/data- এ নিবন্ধন করতে হবে।

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (ডিফল্ট কনফিগারেশন)

  • কনফিগারের বিবরণ : উইকিপিডিয়া-ইমেজ/ক্যাপশন ম্যাচিং প্রতিযোগিতার জন্য প্রশিক্ষণের নমুনা।

  • ডেটাসেটের আকার : 1.16 TiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train_with_extended_features' 37,046,386
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
attribution_passes_lang_id টেনসর bool
caption_alt_text_description পাঠ্য স্ট্রিং
caption_attribution_description পাঠ্য স্ট্রিং
caption_reference_description পাঠ্য স্ট্রিং
caption_title_and_reference_description পাঠ্য স্ট্রিং
প্রসঙ্গ_পৃষ্ঠা_বর্ণনা পাঠ্য স্ট্রিং
প্রসঙ্গ_বিভাগ_বর্ণনা পাঠ্য স্ট্রিং
এমবেডিং টেনসর (2048,) float32
hierarchical_section_title পাঠ্য স্ট্রিং
ইমেজ ছবি (কোনটিই নয়, 3) uint8
ছবির ঠিকানা পাঠ্য স্ট্রিং
is_main_image টেনসর bool
ভাষা পাঠ্য স্ট্রিং
মেটাডেটা_ইউআরএল পাঠ্য স্ট্রিং
MIME ধরণ পাঠ্য স্ট্রিং
মূল_উচ্চতা টেনসর int32
মূল_প্রস্থ টেনসর int32
পৃষ্ঠা_পরিবর্তিত_সম্প্রতি টেনসর bool
পেজের টাইটেল পাঠ্য স্ট্রিং
page_url পাঠ্য স্ট্রিং
বিভাগ_শিরোনাম পাঠ্য স্ট্রিং

ভিজ্যুয়ালাইজেশন

wit_kaggle/test_without_gold

  • কনফিগারেশনের বিবরণ : উইকিপিডিয়া-ইমেজ/ক্যাপশন ম্যাচিং প্রতিযোগিতার জন্য পরীক্ষা নমুনা (স্বর্ণ উত্তর ছাড়া)।

  • ডেটাসেটের আকার : 3.37 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test_without_gold' ৯২,৩৬৬
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
caption_title_and_reference_description পাঠ্য স্ট্রিং
এমবেডিং টেনসর (2048,) float32
আইডি পাঠ্য স্ট্রিং
ইমেজ ছবি (কোনটিই নয়, 3) uint8
ছবির ঠিকানা পাঠ্য স্ট্রিং
মেটাডেটা_ইউআরএল পাঠ্য স্ট্রিং

ভিজ্যুয়ালাইজেশন