wit_kaggle

  • Описание :

Википедия — Соревнование Kaggle по подбору изображений и подписей.

Этот конкурс организован исследовательской группой Фонда Викимедиа в сотрудничестве с Google Research и несколькими внешними сотрудниками. Это соревнование основано на наборе данных WIT , опубликованном Google Research, как подробно описано в этой статье SIGIR .

В этом соревновании вы создадите модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, вы научите свою модель связывать заданные изображения с заголовками статей или сложными подписями на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии. В случае успеха вы будете способствовать доступности крупнейшей онлайн-энциклопедии. Миллионы читателей и редакторов Википедии смогут легче понимать, искать и описывать медиа в любом масштабе. В результате вы внесете свой вклад в открытую модель повышения качества обучения для всех.

  • Домашняя страница : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Исходный код : tfds.vision_language.wit_kaggle.WitKaggle

  • Версии :

    • 1.0.0 : Первоначальный выпуск. Он предоставляет обучающие и тестовые наборы данных из конкурса Wikipedia — Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Цель конкурса — построить модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, модель должна быть обучена связывать заданные изображения с заголовками статей или сложными заголовками на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии.

      Обратите внимание, что этот релиз не предоставляет достоверной информации для тестового набора, поскольку он еще не был предоставлен конкурсом Kaggle.

      Обратите внимание, что не все обучающие наблюдения имеют соответствующие данные изображения. Выпущенные изображения исключают все изображения, содержащие людей. Для образцов, которые не связаны с данными изображения, используются следующие характеристики изображения: image представляет собой пустое изображение, закодированное в 64 байта, embedding представляет собой вектор из 2048 нулей.

      Образцы, выпущенные для конкурса, можно загрузить как: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (по умолчанию): оптимизация конвейера Beam, чтобы избежать проблем, игнорируя строки без URL-адреса изображения. Также добавлено больше счетчиков лучей.

  • Размер загрузки : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    В зависимости от вызываемой конфигурации, manual_dir должен содержать некоторые из следующих подкаталогов:

    • тренироваться
    • поезд-{0000x}-из-00005.tsv.zip
    • image_data_train/
      • изображение_пикселей/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • тест
    • test.tsv.zip
    • image_data_test/
      • изображение_пикселей/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Регистрация на https://www.kaggle.com/c/wikipedia-image-caption/data необходима, чтобы получить ссылки для загрузки набора данных.

  • Автоматическое кэширование ( документация ): Нет

  • Контролируемые ключи (см. as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Цитата :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (конфигурация по умолчанию)

  • Описание конфигурации : обучающие образцы для конкурса сопоставления изображений и подписей Википедии.

  • Размер набора данных : 1.16 TiB .

  • Сплиты :

Расколоть Примеры
'train_with_extended_features' 37 046 386
  • Структура функции :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
attribution_passes_lang_id Тензор tf.bool
caption_alt_text_description Текст tf.string
caption_attribution_description Текст tf.string
caption_reference_description Текст tf.string
caption_title_and_reference_description Текст tf.string
context_page_description Текст tf.string
context_section_description Текст tf.string
встраивание Тензор (2048 г.) tf.float32
иерархический_раздел_название Текст tf.string
изображение Изображение (Нет, Нет, 3) tf.uint8
URL изображения Текст tf.string
is_main_image Тензор tf.bool
язык Текст tf.string
метаданные_url Текст tf.string
mime_type Текст tf.string
original_height Тензор tf.int32
исходная_ширина Тензор tf.int32
page_changed_recently Тензор tf.bool
Заголовок страницы Текст tf.string
page_url Текст tf.string
section_title Текст tf.string

Визуализация

wit_kaggle/test_without_gold

  • Описание конфигурации : Тестовые образцы (без золотых ответов) для конкурса «Википедия-изображение/подпись».

  • Размер набора данных : 3.37 GiB

  • Сплиты :

Расколоть Примеры
'test_without_gold' 92 366
  • Структура функции :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
caption_title_and_reference_description Текст tf.string
встраивание Тензор (2048 г.) tf.float32
я бы Текст tf.string
изображение Изображение (Нет, Нет, 3) tf.uint8
URL изображения Текст tf.string
метаданные_url Текст tf.string

Визуализация