- Mô tả :
XQuAD (Bộ dữ liệu trả lời câu hỏi đa ngôn ngữ) là một bộ dữ liệu chuẩn để đánh giá hiệu suất trả lời câu hỏi đa ngôn ngữ. Bộ dữ liệu bao gồm một tập hợp con gồm 240 đoạn văn và 1190 cặp câu hỏi-câu trả lời từ bộ phát triển của SQuAD v1.1 (Rajpurkar et al., 2016) cùng với các bản dịch chuyên nghiệp sang mười ngôn ngữ: Tây Ban Nha, Đức, Hy Lạp, Nga, Thổ Nhĩ Kỳ , tiếng Ả Rập, tiếng Việt, tiếng Thái, tiếng Trung và tiếng Hindi. Do đó, bộ dữ liệu hoàn toàn song song trên 11 ngôn ngữ. Để chạy XQuAD trong cài đặt zero-shot mặc định, hãy sử dụng dữ liệu xác thực và đào tạo SQuAD v1.1 tại đây: https://www.tensorflow.org/datasets/catalog/squad
Chúng tôi cũng bao gồm các phần tách "translate-train", "translate-dev" và "translate-test" cho từng ngôn ngữ không phải tiếng Anh từ XTREME (Hu et al., 2020). Chúng có thể được sử dụng để chạy XQuAD trong cài đặt "translate-train" hoặc "translate-test".
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/deepmind/xquad
Mã nguồn :
tfds.question_answering.Xquad
Phiên bản :
-
3.0.0
(mặc định): Khắc phục sự cố với một số ví dụ trong đó các khoảng trả lời bị lệch do loại bỏ khoảng trắng trong ngữ cảnh. Thay đổi này ảnh hưởng đến khoảng 14% ví dụ thử nghiệm.
-
Cấu trúc tính năng :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
câu trả lời | Sự phối hợp | |||
câu trả lời/answer_start | tenxơ | int32 | ||
câu trả lời/văn bản | Chữ | sợi dây | ||
định nghĩa bài văn | Chữ | sợi dây | ||
Tôi | tenxơ | sợi dây | ||
câu hỏi | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (cấu hình mặc định)
Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'ar', với các phân tách translate-train/translate-dev/translate-test được dịch bằng máy từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
420.97 MiB
Kích thước tập dữ liệu :
134.83 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,541 |
'translate-test' | 1.151 |
'translate-train' | 86,787 |
- Ví dụ ( tfds.as_dataframe ):
xquad/de
Mô tả cấu hình : Phân tách thử nghiệm 'de' XQuAD, với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
127.04 MiB
Kích thước tập dữ liệu :
98.80 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,371 |
'translate-test' | 1.168 |
'translate-train' | 82,603 |
- Ví dụ ( tfds.as_dataframe ):
xquad/el
Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'el', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
499.40 MiB
Kích thước tập dữ liệu :
157.90 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi
shuffle_files=False
(dịch-đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10.100 |
'translate-test' | 1.182 |
'translate-train' | 79,946 |
- Ví dụ ( tfds.as_dataframe ):
xquad/es
Mô tả cấu hình : Phần tách thử nghiệm của XQuAD 'es', với các phần tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
138.41 MiB
Kích thước tập dữ liệu :
104.96 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,566 |
'translate-test' | 1.188 |
'translate-train' | 87,488 |
- Ví dụ ( tfds.as_dataframe ):
xquad/xin chào
Mô tả cấu hình : XQuAD phân tách thử nghiệm 'hi', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
472.23 MiB
Kích thước tập dữ liệu :
207.85 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi
shuffle_files=False
(dịch-đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,536 |
'translate-test' | 1.184 |
'translate-train' | 85,804 |
- Ví dụ ( tfds.as_dataframe ):
xquad/ru
Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'ru', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
513.80 MiB
Kích thước tập dữ liệu :
159.38 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi
shuffle_files=False
(dịch-đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,469 |
'translate-test' | 1.190 |
'translate-train' | 84,869 |
- Ví dụ ( tfds.as_dataframe ):
xquad/th
Mô tả cấu hình : Phân tách thử nghiệm 'thứ' của XQuAD, với các phân tách thử nghiệm translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
461.54 MiB
Kích thước tập dữ liệu :
199.57 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi
shuffle_files=False
(dịch-đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,516 |
'translate-test' | 1.157 |
'translate-train' | 85,846 |
- Ví dụ ( tfds.as_dataframe ):
xquad/tr
Mô tả cấu hình : XQuAD phân tách thử nghiệm 'tr', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
151.08 MiB
Kích thước tập dữ liệu :
97.56 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,535 |
'translate-test' | 1.112 |
'translate-train' | 86,511 |
- Ví dụ ( tfds.as_dataframe ):
xquad/vi
Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'vi', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
218.09 MiB
Kích thước tập dữ liệu :
120.03 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,555 |
'translate-test' | 1.178 |
'translate-train' | 87,187 |
- Ví dụ ( tfds.as_dataframe ):
xquad/zh
Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'zh', với các phân tách translate-train/translate-dev/translate-test được dịch bằng máy từ XTREME (Hu et al., 2020).
Kích thước tải xuống :
174.57 MiB
Kích thước tập dữ liệu :
80.79 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
'translate-dev' | 10,475 |
'translate-test' | 1.186 |
'translate-train' | 85.700 |
- Ví dụ ( tfds.as_dataframe ):
xquad/vi
Mô tả cấu hình : Phân tách kiểm tra XQuAD 'en'.
Kích thước tải xuống :
595.10 KiB
Kích thước tập dữ liệu :
1.19 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.190 |
- Ví dụ ( tfds.as_dataframe ):