wit_kaggle

  • Описание :

Википедия — Соревнование Kaggle по подбору изображений и подписей.

Этот конкурс организован исследовательской группой Фонда Викимедиа в сотрудничестве с Google Research и несколькими внешними сотрудниками. Это соревнование основано на наборе данных WIT , опубликованном Google Research, как подробно описано в этой статье SIGIR .

В этом соревновании вы создадите модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, вы научите свою модель связывать заданные изображения с заголовками статей или сложными подписями на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии. В случае успеха вы будете способствовать доступности крупнейшей онлайн-энциклопедии. Миллионы читателей и редакторов Википедии смогут легче понимать, искать и описывать медиа в любом масштабе. В результате вы внесете свой вклад в открытую модель повышения качества обучения для всех.

  • Домашняя страница : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Исходный код : tfds.vision_language.wit_kaggle.WitKaggle

  • Версии :

    • 1.0.0 : Первоначальный выпуск. Он предоставляет обучающие и тестовые наборы данных из конкурса Wikipedia — Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Цель конкурса — построить модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, модель должна быть обучена связывать заданные изображения с заголовками статей или сложными заголовками на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии.

      Обратите внимание, что этот релиз не предоставляет достоверной информации для тестового набора, поскольку он еще не был предоставлен конкурсом Kaggle.

      Обратите внимание, что не все обучающие наблюдения имеют соответствующие данные изображения. Выпущенные изображения исключают все изображения, содержащие людей. Для образцов, которые не связаны с данными изображения, используются следующие характеристики изображения: image представляет собой пустое изображение, закодированное в 64 байта, embedding представляет собой вектор из 2048 нулей.

      Образцы, выпущенные для конкурса, можно загрузить как: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Оптимизируйте конвейер Beam, чтобы избежать проблем, игнорируя строки без URL-адреса изображения. Также добавлено больше счетчиков лучей.

    • 1.0.2 (по умолчанию): исправляет синтаксический анализ логических полей.

  • Размер загрузки : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    В зависимости от вызываемой конфигурации, manual_dir должен содержать некоторые из следующих подкаталогов:

    • тренироваться
    • поезд-{0000x}-из-00005.tsv.zip
    • image_data_train/
      • изображение_пикселей/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • тестовое задание
    • test.tsv.zip
    • image_data_test/
      • изображение_пикселей/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Регистрация на https://www.kaggle.com/c/wikipedia-image-caption/data необходима, чтобы получить ссылки для загрузки набора данных.

  • Автоматическое кэширование ( документация ): Нет

  • Контролируемые ключи (см. as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Цитата :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (конфигурация по умолчанию)

  • Описание конфигурации : обучающие образцы для конкурса сопоставления изображений и подписей Википедии.

  • Размер набора данных : 1.16 TiB .

  • Сплиты :

Расколоть Примеры
'train_with_extended_features' 37 046 386
  • Структура функции :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
attribution_passes_lang_id Тензор логический
caption_alt_text_description Текст нить
caption_attribution_description Текст нить
caption_reference_description Текст нить
caption_title_and_reference_description Текст нить
context_page_description Текст нить
context_section_description Текст нить
встраивание Тензор (2048 г.) поплавок32
иерархический_раздел_название Текст нить
изображение Изображение (Нет, Нет, 3) uint8
URL изображения Текст нить
is_main_image Тензор логический
язык Текст нить
метаданные_url Текст нить
mime_type Текст нить
original_height Тензор int32
исходная_ширина Тензор int32
page_changed_recently Тензор логический
Заголовок страницы Текст нить
page_url Текст нить
section_title Текст нить

Визуализация

wit_kaggle/test_without_gold

  • Описание конфигурации : Тестовые образцы (без золотых ответов) для конкурса «Википедия-изображение/подпись».

  • Размер набора данных : 3.37 GiB

  • Сплиты :

Расколоть Примеры
'test_without_gold' 92 366
  • Структура функции :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
caption_title_and_reference_description Текст нить
встраивание Тензор (2048 г.) поплавок32
я бы Текст нить
изображение Изображение (Нет, Нет, 3) uint8
URL изображения Текст нить
метаданные_url Текст нить

Визуализация