- Deskripsi :
Wikipedia - Kompetisi Kaggle Pencocokan Gambar/Teks.
Kompetisi ini diselenggarakan oleh tim Riset di Wikimedia Foundation bekerja sama dengan Google Research dan beberapa kolaborator eksternal. Kompetisi ini didasarkan pada dataset WIT yang diterbitkan oleh Google Research sebagaimana dirinci dalam makalah SIGIR ini.
Dalam kompetisi ini, Anda akan membuat model yang secara otomatis mengambil teks yang paling dekat dengan gambar. Secara khusus, Anda akan melatih model Anda untuk mengaitkan gambar yang diberikan dengan judul artikel atau teks yang rumit, dalam berbagai bahasa. Model terbaik akan memperhitungkan perincian semantik gambar Wikipedia. Jika berhasil, Anda akan berkontribusi pada aksesibilitas ensiklopedia online terbesar. Jutaan pembaca dan penyunting Wikipedia akan lebih mudah memahami, mencari, dan mendeskripsikan media dalam skala besar. Hasilnya, Anda akan berkontribusi pada model terbuka untuk meningkatkan pembelajaran untuk semua.
Beranda : https://www.kaggle.com/c/wikipedia-image-caption/code
Kode sumber :
tfds.vision_language.wit_kaggle.WitKaggle
Versi :
1.0.0
: Rilis awal. Ini menyediakan kumpulan data latih dan uji dari Wikipedia - kompetisi Pencocokan Gambar/Caption Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).Tujuan dari kompetisi ini adalah membangun model yang secara otomatis mengambil teks yang paling dekat dengan gambar. Secara khusus, model harus dilatih untuk mengasosiasikan gambar yang diberikan dengan judul artikel atau keterangan kompleks, dalam berbagai bahasa. Model terbaik akan memperhitungkan perincian semantik gambar Wikipedia.
Perhatikan bahwa rilis ini tidak memberikan kebenaran dasar untuk set pengujian, karena belum disediakan oleh kompetisi Kaggle.
Perhatikan bahwa tidak semua observasi pelatihan memiliki data gambar yang sesuai. Gambar yang dirilis mengecualikan semua gambar yang mengandung manusia. Untuk sampel yang tidak terkait dengan data gambar, fitur gambar berikut digunakan:
image
adalah gambar kosong yang disandikan byte-64,embedding
adalah vektor 2048 nol.Sampel yang dirilis untuk kompetisi dapat dimuat sebagai:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Optimalkan pipa Beam untuk menghindari pejuang, abaikan baris tanpa URL gambar. Juga menambahkan lebih banyak penghitung balok.1.0.2
(default): Memperbaiki penguraian bidang boolean.
Ukuran unduhan :
Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Bergantung pada konfigurasi yang dipanggil, manual_dir harus berisi beberapa subdirektori berikut:- kereta
- kereta-{0000x}-of-00005.tsv.zip
- gambar_data_kereta/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- uji
- test.tsv.zip
- uji_data_gambar/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
Pendaftaran di https://www.kaggle.com/c/wikipedia-image-caption/data diperlukan untuk mendapatkan tautan untuk mengunduh dataset.
Di-cache otomatis ( dokumentasi ): Tidak
Kunci yang diawasi (Lihat
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
Kutipan :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (konfigurasi default)
Deskripsi konfigurasi : Contoh pelatihan untuk kompetisi Wikipedia-Image/Caption Matching.
Ukuran dataset :
1.16 TiB
Perpecahan :
Membelah | Contoh |
---|---|
'train_with_extended_features' | 37.046.386 |
- Struktur fitur :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
atribusi_passes_lang_id | Tensor | bool | ||
caption_alt_text_description | Teks | rangkaian | ||
caption_attribution_description | Teks | rangkaian | ||
keterangan_referensi_deskripsi | Teks | rangkaian | ||
caption_title_and_reference_description | Teks | rangkaian | ||
konteks_halaman_deskripsi | Teks | rangkaian | ||
konteks_bagian_deskripsi | Teks | rangkaian | ||
penyematan | Tensor | (2048,) | float32 | |
hirarkis_bagian_judul | Teks | rangkaian | ||
gambar | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | |
image_url | Teks | rangkaian | ||
is_main_image | Tensor | bool | ||
bahasa | Teks | rangkaian | ||
metadata_url | Teks | rangkaian | ||
mime_type | Teks | rangkaian | ||
tinggi_asli | Tensor | int32 | ||
lebar_asli | Tensor | int32 | ||
page_changed_recently | Tensor | bool | ||
judul halaman | Teks | rangkaian | ||
Halaman URL | Teks | rangkaian | ||
bagian_judul | Teks | rangkaian |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
Deskripsi konfigurasi : Sampel uji (tanpa jawaban emas) untuk kompetisi Pencocokan Gambar/Teks Wikipedia.
Ukuran dataset :
3.37 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test_without_gold' | 92.366 |
- Struktur fitur :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
caption_title_and_reference_description | Teks | rangkaian | ||
penyematan | Tensor | (2048,) | float32 | |
Indo | Teks | rangkaian | ||
gambar | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | |
image_url | Teks | rangkaian | ||
metadata_url | Teks | rangkaian |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):