- Deskripsi :
XQuAD (Kumpulan Data Penjawab Pertanyaan Lintas Bahasa) adalah kumpulan data tolok ukur untuk mengevaluasi kinerja menjawab pertanyaan lintas bahasa. Dataset terdiri dari subset 240 paragraf dan 1190 pasangan tanya jawab dari set pengembangan SQuAD v1.1 (Rajpurkar et al., 2016) bersama dengan terjemahan profesionalnya ke dalam sepuluh bahasa: Spanyol, Jerman, Yunani, Rusia, Turki , Arab, Vietnam, Thailand, China, dan Hindi. Akibatnya, kumpulan data sepenuhnya paralel di 11 bahasa. Untuk menjalankan XQuAD dalam pengaturan zero-shot default, gunakan data pelatihan dan validasi SQuAD v1.1 di sini: https://www.tensorflow.org/datasets/catalog/squad
Kami juga menyertakan pemisahan "translate-train", "translate-dev", dan "translate-test" untuk setiap bahasa selain bahasa Inggris dari XTREME (Hu et al., 2020). Ini dapat digunakan untuk menjalankan XQuAD di pengaturan "translate-train" atau "translate-test".
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/deepmind/xquad
Kode sumber :
tfds.question_answering.Xquad
Versi :
-
3.0.0
(default): Memperbaiki masalah dengan sejumlah contoh di mana rentang jawaban tidak selaras karena penghapusan spasi konteks. Perubahan ini berdampak pada sekitar 14% contoh uji.
-
Struktur fitur :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
jawaban | Urutan | |||
jawaban/jawaban_mulai | Tensor | int32 | ||
jawaban/teks | Teks | rangkaian | ||
konteks | Teks | rangkaian | ||
Indo | Tensor | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
judul | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (konfigurasi default)
Deskripsi konfigurasi : Pemisahan pengujian XQuAD 'ar', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahkan-terjemahan mesin dari XTREME (Hu et al., 2020).
Ukuran unduhan :
420.97 MiB
Ukuran dataset :
134.83 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.541 |
'translate-test' | 1.151 |
'translate-train' | 86.787 |
- Contoh ( tfds.as_dataframe ):
xquad/de
Deskripsi konfigurasi : XQuAD 'de' test split, dengan terjemahan mesin translate-train/translate-dev/translate-test splits dari XTREME (Hu et al., 2020).
Ukuran unduhan :
127.04 MiB
Ukuran dataset :
98.80 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.371 |
'translate-test' | 1.168 |
'translate-train' | 82.603 |
- Contoh ( tfds.as_dataframe ):
xquad/el
Deskripsi konfigurasi : XQuAD 'el' test split, dengan terjemahan mesin terjemahan-kereta/translate-dev/translate-test split dari XTREME (Hu et al., 2020).
Ukuran unduhan :
499.40 MiB
Ukuran dataset :
157.90 MiB
Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika
shuffle_files=False
(translate-train)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.100 |
'translate-test' | 1.182 |
'translate-train' | 79.946 |
- Contoh ( tfds.as_dataframe ):
xquad/es
Deskripsi konfigurasi : Pembagian uji XQuAD 'es', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).
Ukuran unduhan :
138.41 MiB
Ukuran dataset :
104.96 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.566 |
'translate-test' | 1.188 |
'translate-train' | 87.488 |
- Contoh ( tfds.as_dataframe ):
xquad/hi
Deskripsi konfigurasi : XQuAD 'hi' test split, dengan terjemahan mesin translate-train/translate-dev/translate-test splits dari XTREME (Hu et al., 2020).
Ukuran unduhan :
472.23 MiB
Ukuran dataset :
207.85 MiB
Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika
shuffle_files=False
(translate-train)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.536 |
'translate-test' | 1.184 |
'translate-train' | 85.804 |
- Contoh ( tfds.as_dataframe ):
xquad/ru
Deskripsi konfigurasi : Pembagian uji XQuAD 'ru', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).
Ukuran unduhan :
513.80 MiB
Ukuran dataset :
159.38 MiB
Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika
shuffle_files=False
(translate-train)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.469 |
'translate-test' | 1.190 |
'translate-train' | 84.869 |
- Contoh ( tfds.as_dataframe ):
xquad/th
Deskripsi konfigurasi : XQuAD 'th' test split, dengan terjemahan mesin translate-train/translate-dev/translate-test splits dari XTREME (Hu et al., 2020).
Ukuran unduhan :
461.54 MiB
Ukuran dataset :
199.57 MiB
Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika
shuffle_files=False
(translate-train)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.516 |
'translate-test' | 1.157 |
'translate-train' | 85.846 |
- Contoh ( tfds.as_dataframe ):
xquad/tr
Deskripsi konfigurasi : Pemisahan pengujian XQuAD 'tr', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-pengujian mesin dari XTREME (Hu et al., 2020).
Ukuran unduhan :
151.08 MiB
Ukuran dataset :
97.56 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.535 |
'translate-test' | 1.112 |
'translate-train' | 86.511 |
- Contoh ( tfds.as_dataframe ):
xquad/vi
Deskripsi konfigurasi : Pembagian uji XQuAD 'vi', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).
Ukuran unduhan :
218.09 MiB
Ukuran dataset :
120.03 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.555 |
'translate-test' | 1.178 |
'translate-train' | 87.187 |
- Contoh ( tfds.as_dataframe ):
xquad/zh
Deskripsi konfigurasi : Pembagian uji XQuAD 'zh', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).
Ukuran unduhan :
174.57 MiB
Ukuran dataset :
80.79 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
'translate-dev' | 10.475 |
'translate-test' | 1.186 |
'translate-train' | 85.700 |
- Contoh ( tfds.as_dataframe ):
xquad/en
Deskripsi konfigurasi : Tes split XQuAD 'en'.
Ukuran unduhan :
595.10 KiB
Ukuran dataset :
1.19 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.190 |
- Contoh ( tfds.as_dataframe ):