wit_kaggle

  • توضیحات :

ویکی پدیا - مسابقه تطبیق تصویر/کپشن.

این مسابقه توسط تیم تحقیقاتی در بنیاد ویکی مدیا با همکاری Google Research و چند همکار خارجی سازماندهی شده است. این رقابت بر اساس مجموعه داده WIT منتشر شده توسط Google Research است که در این مقاله SIGIR شرح داده شده است.

در این مسابقه، مدلی خواهید ساخت که به طور خودکار متن نزدیک به یک تصویر را بازیابی می کند. به طور خاص، شما به مدل خود آموزش خواهید داد تا تصاویر داده شده را با عناوین مقاله یا زیرنویس‌های پیچیده به چندین زبان مرتبط کند. بهترین مدل‌ها برای جزئیات معنایی تصاویر ویکی‌پدیا توضیح می‌دهند. در صورت موفقیت، به دسترسی به بزرگترین دایره المعارف آنلاین کمک خواهید کرد. میلیون‌ها خواننده و ویراستار ویکی‌پدیا می‌توانند راحت‌تر رسانه‌ها را درک، جستجو و توصیف کنند. در نتیجه، شما به یک مدل باز برای بهبود یادگیری برای همه کمک خواهید کرد.

  • صفحه اصلی : https://www.kaggle.com/c/wikipedia-image-caption/code

  • کد منبع : tfds.vision_language.wit_kaggle.WitKaggle

  • نسخه ها :

    • 1.0.0 : انتشار اولیه. این مجموعه داده‌های قطار و آزمایشی را از مسابقه Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ) ارائه می‌کند.

      هدف این مسابقه ساخت مدلی است که به طور خودکار متن نزدیک به یک تصویر را بازیابی کند. به طور خاص، این مدل باید آموزش داده شود تا تصاویر داده شده را با عناوین مقاله یا زیرنویس‌های پیچیده به چندین زبان مرتبط کند. بهترین مدل‌ها برای جزئیات معنایی تصاویر ویکی‌پدیا توضیح می‌دهند.

      توجه داشته باشید که این نسخه حقیقتی را برای مجموعه آزمایشی ارائه نمی دهد، زیرا هنوز توسط رقابت Kaggle ارائه نشده است.

      توجه داشته باشید که همه مشاهدات آموزشی داده های تصویری مربوطه ندارند. تصاویر منتشر شده شامل تمام تصاویر حاوی انسان نمی شود. برای نمونه‌هایی که با داده‌های تصویر مرتبط نیستند، از ویژگی‌های تصویر زیر استفاده می‌شود: image یک تصویر خالی کدگذاری شده با بایت ۶۴ است، embedding بردار ۲۰۴۸ صفر است.

      نمونه های منتشر شده برای مسابقه را می توان به صورت زیر بارگذاری کرد: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : خط لوله پرتو را بهینه کنید تا از مبارزات اجتناب کنید، ردیف های بدون URL تصویر را نادیده بگیرید. شمارشگرهای Beam بیشتری نیز اضافه شد.

    • 1.0.2 (پیش فرض): تجزیه فیلدهای بولی را برطرف می کند.

  • اندازه دانلود : Unknown size

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    بسته به پیکربندی فراخوانی شده، manual_dir باید شامل برخی از زیر شاخه های زیر باشد:

    • قطار - تعلیم دادن
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • تست
    • test.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

ثبت نام در https://www.kaggle.com/c/wikipedia-image-caption/data برای دریافت پیوندهای دانلود مجموعه داده مورد نیاز است.

  • ذخیره خودکار ( اسناد ): خیر

  • کلیدهای تحت نظارت (به as_supervised نظارت شده مراجعه کنید): ('image_url', 'caption_title_and_reference_description')

  • نقل قول :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (پیکربندی پیش فرض)

  • توضیحات پیکربندی : نمونه های آموزشی برای مسابقه تطبیق تصویر/تصویر ویکی پدیا.

  • اندازه مجموعه داده : 1.16 TiB

  • تقسیم ها :

شکاف مثال ها
'train_with_extended_features' 37,046,386
  • ساختار ویژگی :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
attribution_passes_lang_id تانسور بوول
caption_alt_text_description متن رشته
caption_attribution_description متن رشته
caption_reference_description متن رشته
caption_title_and_reference_description متن رشته
context_page_description متن رشته
context_section_description متن رشته
تعبیه کردن تانسور (2048،) float32
hierarchical_section_title متن رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
image_url متن رشته
is_main_image تانسور بوول
زبان متن رشته
metadata_url متن رشته
mime_type متن رشته
ارتفاع_اصلی تانسور int32
عرض_اصلی تانسور int32
page_changed_recently تانسور بوول
عنوان صفحه متن رشته
page_url متن رشته
بخش_عنوان متن رشته

تجسم

wit_kaggle/test_without_gold

  • توضیحات پیکربندی : نمونه‌های آزمایشی (بدون پاسخ طلایی) برای مسابقه تطبیق تصویر/تصویر ویکی‌پدیا.

  • حجم مجموعه داده : 3.37 GiB

  • تقسیم ها :

شکاف مثال ها
'test_without_gold' 92,366
  • ساختار ویژگی :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
caption_title_and_reference_description متن رشته
تعبیه کردن تانسور (2048،) float32
شناسه متن رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
image_url متن رشته
metadata_url متن رشته

تجسم

،

  • توضیحات :

ویکی پدیا - مسابقه تطبیق تصویر/کپشن.

این مسابقه توسط تیم تحقیقاتی در بنیاد ویکی مدیا با همکاری Google Research و چند همکار خارجی سازماندهی شده است. این رقابت بر اساس مجموعه داده WIT منتشر شده توسط Google Research است که در این مقاله SIGIR شرح داده شده است.

در این مسابقه، مدلی خواهید ساخت که به طور خودکار متن نزدیک به یک تصویر را بازیابی می کند. به طور خاص، شما به مدل خود آموزش خواهید داد تا تصاویر داده شده را با عناوین مقاله یا زیرنویس‌های پیچیده به چندین زبان مرتبط کند. بهترین مدل‌ها برای جزئیات معنایی تصاویر ویکی‌پدیا توضیح می‌دهند. در صورت موفقیت، به دسترسی به بزرگترین دایره المعارف آنلاین کمک خواهید کرد. میلیون‌ها خواننده و ویراستار ویکی‌پدیا می‌توانند راحت‌تر رسانه‌ها را درک، جستجو و توصیف کنند. در نتیجه، شما به یک مدل باز برای بهبود یادگیری برای همه کمک خواهید کرد.

  • صفحه اصلی : https://www.kaggle.com/c/wikipedia-image-caption/code

  • کد منبع : tfds.vision_language.wit_kaggle.WitKaggle

  • نسخه ها :

    • 1.0.0 : انتشار اولیه. این مجموعه داده‌های قطار و آزمایش را از مسابقه Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ) ارائه می‌کند.

      هدف این مسابقه ساخت مدلی است که به طور خودکار متن نزدیک به یک تصویر را بازیابی کند. به طور خاص، این مدل باید آموزش داده شود تا تصاویر داده شده را با عناوین مقاله یا زیرنویس‌های پیچیده به چندین زبان مرتبط کند. بهترین مدل‌ها برای جزئیات معنایی تصاویر ویکی‌پدیا توضیح می‌دهند.

      توجه داشته باشید که این نسخه حقیقتی را برای مجموعه آزمایشی ارائه نمی دهد، زیرا هنوز توسط رقابت Kaggle ارائه نشده است.

      توجه داشته باشید که همه مشاهدات آموزشی داده های تصویری مربوطه ندارند. تصاویر منتشر شده شامل تمام تصاویر حاوی انسان نمی شود. برای نمونه‌هایی که با داده‌های تصویر مرتبط نیستند، از ویژگی‌های تصویر زیر استفاده می‌شود: image یک تصویر خالی کدگذاری شده با بایت ۶۴ است، embedding بردار ۲۰۴۸ صفر است.

      نمونه های منتشر شده برای مسابقه را می توان به صورت زیر بارگذاری کرد: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : خط لوله پرتو را بهینه کنید تا از مبارزات اجتناب کنید، ردیف های بدون URL تصویر را نادیده بگیرید. شمارشگرهای Beam بیشتری نیز اضافه شد.

    • 1.0.2 (پیش فرض): تجزیه فیلدهای بولی را برطرف می کند.

  • اندازه دانلود : Unknown size

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض به ~/tensorflow_datasets/downloads/manual/ ):
    بسته به پیکربندی فراخوانی شده، manual_dir باید شامل برخی از زیر شاخه های زیر باشد:

    • قطار - تعلیم دادن
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • تست
    • test.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

ثبت نام در https://www.kaggle.com/c/wikipedia-image-caption/data برای دریافت پیوندهای دانلود مجموعه داده مورد نیاز است.

  • ذخیره خودکار ( اسناد ): خیر

  • کلیدهای تحت نظارت (به as_supervised نظارت شده مراجعه کنید): ('image_url', 'caption_title_and_reference_description')

  • نقل قول :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (پیکربندی پیش فرض)

  • توضیحات پیکربندی : نمونه های آموزشی برای مسابقه تطبیق تصویر/تصویر ویکی پدیا.

  • اندازه مجموعه داده : 1.16 TiB

  • تقسیم ها :

شکاف مثال ها
'train_with_extended_features' 37,046,386
  • ساختار ویژگی :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
attribution_passes_lang_id تانسور بوول
caption_alt_text_description متن رشته
caption_attribution_description متن رشته
caption_reference_description متن رشته
caption_title_and_reference_description متن رشته
context_page_description متن رشته
context_section_description متن رشته
تعبیه کردن تانسور (2048،) float32
hierarchical_section_title متن رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
image_url متن رشته
is_main_image تانسور بوول
زبان متن رشته
metadata_url متن رشته
mime_type متن رشته
ارتفاع_اصلی تانسور int32
عرض_اصلی تانسور int32
page_changed_recently تانسور بوول
عنوان صفحه متن رشته
page_url متن رشته
بخش_عنوان متن رشته

تجسم

wit_kaggle/test_without_gold

  • توضیحات پیکربندی : نمونه‌های آزمایشی (بدون پاسخ طلایی) برای مسابقه تطبیق تصویر/تصویر ویکی‌پدیا.

  • حجم مجموعه داده : 3.37 GiB

  • تقسیم ها :

شکاف مثال ها
'test_without_gold' 92,366
  • ساختار ویژگی :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
caption_title_and_reference_description متن رشته
تعبیه کردن تانسور (2048،) float32
شناسه متن رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
image_url متن رشته
metadata_url متن رشته

تجسم