- Descrição :
XQuAD (Conjunto de dados de resposta a perguntas multilíngues) é um conjunto de dados de referência para avaliar o desempenho de respostas a perguntas multilíngues. O conjunto de dados consiste em um subconjunto de 240 parágrafos e 1.190 pares de perguntas e respostas do conjunto de desenvolvimento do SQuAD v1.1 (Rajpurkar et al., 2016), juntamente com suas traduções profissionais para dez idiomas: espanhol, alemão, grego, russo, turco , árabe, vietnamita, tailandês, chinês e hindi. Consequentemente, o conjunto de dados é totalmente paralelo em 11 idiomas. Para executar o XQuAD na configuração zero-shot padrão, use os dados de treinamento e validação do SQuAD v1.1 aqui: https://www.tensorflow.org/datasets/catalog/squad
Também incluímos divisões "translate-train", "translate-dev" e "translate-test" para cada idioma diferente do inglês do XTREME (Hu et al., 2020). Eles podem ser usados para executar o XQuAD nas configurações "translate-train" ou "translate-test".
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/deepmind/xquad
Código -fonte:
tfds.question_answering.Xquad
Versões :
-
3.0.0
(padrão): Corrige o problema com vários exemplos em que os intervalos de resposta estão desalinhados devido à remoção de espaço em branco do contexto. Essa alteração afeta aproximadamente 14% dos exemplos de teste.
-
Estrutura de recursos :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
respostas | Seqüência | |||
respostas/resposta_início | tensor | int32 | ||
respostas/texto | Texto | corda | ||
contexto | Texto | corda | ||
Eu iria | tensor | corda | ||
pergunta | Texto | corda | ||
título | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (configuração padrão)
Descrição da configuração : divisão de teste XQuAD 'ar', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
420.97 MiB
Tamanho do conjunto de dados :
134.83 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.541 |
'translate-test' | 1.151 |
'translate-train' | 86.787 |
- Exemplos ( tfds.as_dataframe ):
xquad/de
Descrição da configuração : divisão de teste XQuAD 'de', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
127.04 MiB
Tamanho do conjunto de dados :
98.80 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.371 |
'translate-test' | 1.168 |
'translate-train' | 82.603 |
- Exemplos ( tfds.as_dataframe ):
xquad/el
Descrição da configuração : divisão de teste XQuAD 'el', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
499.40 MiB
Tamanho do conjunto de dados :
157.90 MiB
Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando
shuffle_files=False
(translate-train)Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.100 |
'translate-test' | 1.182 |
'translate-train' | 79.946 |
- Exemplos ( tfds.as_dataframe ):
xquad/es
Descrição da configuração : divisão de teste XQuAD 'es', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
138.41 MiB
Tamanho do conjunto de dados :
104.96 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.566 |
'translate-test' | 1.188 |
'translate-train' | 87.488 |
- Exemplos ( tfds.as_dataframe ):
xquad/hi
Descrição da configuração : divisão de teste XQuAD 'hi', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
472.23 MiB
Tamanho do conjunto de dados :
207.85 MiB
Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando
shuffle_files=False
(translate-train)Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.536 |
'translate-test' | 1.184 |
'translate-train' | 85.804 |
- Exemplos ( tfds.as_dataframe ):
xquad/ru
Descrição da configuração : divisão de teste XQuAD 'ru', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
513.80 MiB
Tamanho do conjunto de dados :
159.38 MiB
Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando
shuffle_files=False
(translate-train)Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.469 |
'translate-test' | 1.190 |
'translate-train' | 84.869 |
- Exemplos ( tfds.as_dataframe ):
xquad/th
Descrição da configuração : divisão de teste XQuAD 'th', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
461.54 MiB
Tamanho do conjunto de dados :
199.57 MiB
Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando
shuffle_files=False
(translate-train)Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.516 |
'translate-test' | 1.157 |
'translate-train' | 85.846 |
- Exemplos ( tfds.as_dataframe ):
xquad/tr
Descrição da configuração : divisão de teste XQuAD 'tr', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
151.08 MiB
Tamanho do conjunto de dados :
97.56 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.535 |
'translate-test' | 1.112 |
'translate-train' | 86.511 |
- Exemplos ( tfds.as_dataframe ):
xquad/vi
Descrição da configuração : divisão de teste XQuAD 'vi', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
218.09 MiB
Tamanho do conjunto de dados :
120.03 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.555 |
'translate-test' | 1.178 |
'translate-train' | 87.187 |
- Exemplos ( tfds.as_dataframe ):
xquad/zh
Descrição da configuração : divisão de teste XQuAD 'zh', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).
Tamanho do download :
174.57 MiB
Tamanho do conjunto de dados :
80.79 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
'translate-dev' | 10.475 |
'translate-test' | 1.186 |
'translate-train' | 85.700 |
- Exemplos ( tfds.as_dataframe ):
xquad/en
Descrição da configuração : Divisão de teste XQuaD 'en'.
Tamanho do download :
595.10 KiB
Tamanho do conjunto de dados :
1.19 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.190 |
- Exemplos ( tfds.as_dataframe ):