wit_kaggle

  • Deskripsi :

Wikipedia - Kompetisi Kaggle Pencocokan Gambar/Teks.

Kompetisi ini diselenggarakan oleh tim Riset di Wikimedia Foundation bekerja sama dengan Google Research dan beberapa kolaborator eksternal. Kompetisi ini didasarkan pada dataset WIT yang diterbitkan oleh Google Research sebagaimana dirinci dalam makalah SIGIR ini.

Dalam kompetisi ini, Anda akan membuat model yang secara otomatis mengambil teks yang paling dekat dengan gambar. Secara khusus, Anda akan melatih model Anda untuk mengaitkan gambar yang diberikan dengan judul artikel atau teks yang rumit, dalam berbagai bahasa. Model terbaik akan memperhitungkan perincian semantik gambar Wikipedia. Jika berhasil, Anda akan berkontribusi pada aksesibilitas ensiklopedia online terbesar. Jutaan pembaca dan penyunting Wikipedia akan lebih mudah memahami, mencari, dan mendeskripsikan media dalam skala besar. Hasilnya, Anda akan berkontribusi pada model terbuka untuk meningkatkan pembelajaran untuk semua.

  • Beranda : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Kode sumber : tfds.vision_language.wit_kaggle.WitKaggle

  • Versi :

    • 1.0.0 : Rilis awal. Ini menyediakan kumpulan data latih dan uji dari Wikipedia - kompetisi Pencocokan Gambar/Caption Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Tujuan dari kompetisi ini adalah membangun model yang secara otomatis mengambil teks yang paling dekat dengan gambar. Secara khusus, model harus dilatih untuk mengasosiasikan gambar yang diberikan dengan judul artikel atau keterangan kompleks, dalam berbagai bahasa. Model terbaik akan memperhitungkan perincian semantik gambar Wikipedia.

      Perhatikan bahwa rilis ini tidak memberikan kebenaran dasar untuk set pengujian, karena belum disediakan oleh kompetisi Kaggle.

      Perhatikan bahwa tidak semua observasi pelatihan memiliki data gambar yang sesuai. Gambar yang dirilis mengecualikan semua gambar yang mengandung manusia. Untuk sampel yang tidak terkait dengan data gambar, fitur gambar berikut digunakan: image adalah gambar kosong yang disandikan byte-64, embedding adalah vektor 2048 nol.

      Sampel yang dirilis untuk kompetisi dapat dimuat sebagai: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Optimalkan pipa Beam untuk menghindari pejuang, abaikan baris tanpa URL gambar. Juga menambahkan lebih banyak penghitung balok.

    • 1.0.2 (default): Memperbaiki penguraian bidang boolean.

  • Ukuran unduhan : Unknown size

  • Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
    Bergantung pada konfigurasi yang dipanggil, manual_dir harus berisi beberapa subdirektori berikut:

    • kereta
    • kereta-{0000x}-of-00005.tsv.zip
    • gambar_data_kereta/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • uji
    • test.tsv.zip
    • uji_data_gambar/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Pendaftaran di https://www.kaggle.com/c/wikipedia-image-caption/data diperlukan untuk mendapatkan tautan untuk mengunduh dataset.

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Kunci yang diawasi (Lihat as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Kutipan :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (konfigurasi default)

  • Deskripsi konfigurasi : Contoh pelatihan untuk kompetisi Wikipedia-Image/Caption Matching.

  • Ukuran dataset : 1.16 TiB

  • Perpecahan :

Membelah Contoh
'train_with_extended_features' 37.046.386
  • Struktur fitur :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
atribusi_passes_lang_id Tensor bool
caption_alt_text_description Teks rangkaian
caption_attribution_description Teks rangkaian
keterangan_referensi_deskripsi Teks rangkaian
caption_title_and_reference_description Teks rangkaian
konteks_halaman_deskripsi Teks rangkaian
konteks_bagian_deskripsi Teks rangkaian
penyematan Tensor (2048,) float32
hirarkis_bagian_judul Teks rangkaian
gambar Gambar (Tidak ada, Tidak ada, 3) uint8
image_url Teks rangkaian
is_main_image Tensor bool
bahasa Teks rangkaian
metadata_url Teks rangkaian
mime_type Teks rangkaian
tinggi_asli Tensor int32
lebar_asli Tensor int32
page_changed_recently Tensor bool
judul halaman Teks rangkaian
Halaman URL Teks rangkaian
bagian_judul Teks rangkaian

Visualisasi

wit_kaggle/test_without_gold

  • Deskripsi konfigurasi : Sampel uji (tanpa jawaban emas) untuk kompetisi Pencocokan Gambar/Teks Wikipedia.

  • Ukuran dataset : 3.37 GiB

  • Perpecahan :

Membelah Contoh
'test_without_gold' 92.366
  • Struktur fitur :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
caption_title_and_reference_description Teks rangkaian
penyematan Tensor (2048,) float32
Indo Teks rangkaian
gambar Gambar (Tidak ada, Tidak ada, 3) uint8
image_url Teks rangkaian
metadata_url Teks rangkaian

Visualisasi