- Mô tả :
Bộ dữ liệu Văn bản Hình ảnh (WIT) dựa trên Wikipedia là một bộ dữ liệu đa ngôn ngữ đa phương thức lớn. WIT bao gồm một tập hợp được tuyển chọn gồm 37,6 triệu ví dụ văn bản hình ảnh giàu thực thể với 11,5 triệu hình ảnh độc đáo trên 108 ngôn ngữ của Wikipedia. Kích thước của nó cho phép WIT được sử dụng làm bộ dữ liệu đào tạo trước cho các mô hình máy học đa phương thức.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research-datasets/wit/
Mã nguồn :
tfds.vision_language.wit.Wit
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. Nó tải bộ dữ liệu WIT từ https://storage.googleapis.com/gresearch/wit/ -
1.1.0
(mặc định): Đã thêm phân táchval
vàtest
.
-
Kích thước tải xuống :
25.20 GiB
Kích thước tập dữ liệu :
81.17 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 210,166 |
'train' | 37.046.386 |
'val' | 261,024 |
- Cấu trúc tính năng :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
attribution_passes_lang_id | tenxơ | bool | ||
chú thích_alt_text_description | Chữ | sợi dây | ||
caption_attribution_description | Chữ | sợi dây | ||
caption_reference_description | Chữ | sợi dây | ||
context_page_description | Chữ | sợi dây | ||
bối cảnh_phần_mô tả | Chữ | sợi dây | ||
hierarchical_section_title | Chữ | sợi dây | ||
URL hình ảnh | Chữ | sợi dây | ||
is_main_image | tenxơ | bool | ||
ngôn ngữ | Chữ | sợi dây | ||
mime_type | Chữ | sợi dây | ||
original_height | tenxơ | int32 | ||
original_width | tenxơ | int32 | ||
page_changed_recently | tenxơ | bool | ||
trang_title | Chữ | sợi dây | ||
trang_url | Chữ | sợi dây | ||
phần_tiêu đề | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}