機転

  • 説明:

ウィキペディア ベースの画像テキスト (WIT) データセットは、大規模なマルチモーダル多言語データセットです。 WIT は、108 のウィキペディア言語にわたる 1,150 万の一意の画像を含む、3,760 万のエンティティが豊富な画像テキストの例の精選されたセットで構成されています。そのサイズにより、WIT をマルチモーダル機械学習モデルの事前トレーニング データセットとして使用できます。

スプリット
'test' 210,166
'train' 37,046,386
'val' 261,024
  • 機能構造:
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
attribution_passes_lang_idテンソルブール
caption_alt_text_description文章ストリング
caption_attribution_description文章ストリング
キャプション_参照_説明文章ストリング
context_page_description文章ストリング
context_section_description文章ストリング
hierarchy_section_title文章ストリング
image_url文章ストリング
is_main_imageテンソルブール
言語文章ストリング
mime_type文章ストリング
オリジナルの高さテンソルint32
original_widthテンソルint32
page_changed_recentlyテンソルブール
ページタイトル文章ストリング
page_url文章ストリング
section_title文章ストリング
  • 引用
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}