mưu mẹo

Mô tả :

Bộ dữ liệu Văn bản Hình ảnh (WIT) dựa trên Wikipedia là một bộ dữ liệu đa ngôn ngữ đa phương thức lớn. WIT bao gồm một tập hợp được tuyển chọn gồm 37,6 triệu ví dụ văn bản hình ảnh giàu thực thể với 11,5 triệu hình ảnh độc đáo trên 108 ngôn ngữ của Wikipedia. Kích thước của nó cho phép WIT được sử dụng làm bộ dữ liệu đào tạo trước cho các mô hình máy học đa phương thức.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research-datasets/wit/
Mã nguồn : tfds.vision_language.wit.Wit
Phiên bản :
- 1.0.0 : Bản phát hành đầu tiên. Nó tải bộ dữ liệu WIT từ https://storage.googleapis.com/gresearch/wit/
- 1.1.0 (mặc định): Đã thêm phân tách val và test .
Kích thước tải xuống : 25.20 GiB
Kích thước tập dữ liệu : 81.17 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	210,166
`'train'`	37.046.386
`'val'`	261,024

Cấu trúc tính năng :

FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
attribution_passes_lang_id	tenxơ	bool
chú thích_alt_text_description	Chữ	sợi dây
caption_attribution_description	Chữ	sợi dây
caption_reference_description	Chữ	sợi dây
context_page_description	Chữ	sợi dây
bối cảnh_phần_mô tả	Chữ	sợi dây
hierarchical_section_title	Chữ	sợi dây
URL hình ảnh	Chữ	sợi dây
is_main_image	tenxơ	bool
ngôn ngữ	Chữ	sợi dây
mime_type	Chữ	sợi dây
original_height	tenxơ	int32
original_width	tenxơ	int32
page_changed_recently	tenxơ	bool
trang_title	Chữ	sợi dây
trang_url	Chữ	sợi dây
phần_tiêu đề	Chữ	sợi dây

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

mưu mẹo Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

mưu mẹo