xquad

  • Descrição :

XQuAD (Conjunto de dados de resposta a perguntas multilíngues) é um conjunto de dados de referência para avaliar o desempenho de respostas a perguntas multilíngues. O conjunto de dados consiste em um subconjunto de 240 parágrafos e 1.190 pares de perguntas e respostas do conjunto de desenvolvimento do SQuAD v1.1 (Rajpurkar et al., 2016), juntamente com suas traduções profissionais para dez idiomas: espanhol, alemão, grego, russo, turco , árabe, vietnamita, tailandês, chinês e hindi. Consequentemente, o conjunto de dados é totalmente paralelo em 11 idiomas. Para executar o XQuAD na configuração zero-shot padrão, use os dados de treinamento e validação do SQuAD v1.1 aqui: https://www.tensorflow.org/datasets/catalog/squad

Também incluímos divisões "translate-train", "translate-dev" e "translate-test" para cada idioma diferente do inglês do XTREME (Hu et al., 2020). Eles podem ser usados ​​para executar o XQuAD nas configurações "translate-train" ou "translate-test".

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
respostas Seqüência
respostas/resposta_início tensor int32
respostas/texto Texto corda
contexto Texto corda
Eu iria tensor corda
pergunta Texto corda
título Texto corda
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (configuração padrão)

  • Descrição da configuração : divisão de teste XQuAD 'ar', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 420.97 MiB

  • Tamanho do conjunto de dados : 134.83 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.541
'translate-test' 1.151
'translate-train' 86.787

xquad/de

  • Descrição da configuração : divisão de teste XQuAD 'de', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 127.04 MiB

  • Tamanho do conjunto de dados : 98.80 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.371
'translate-test' 1.168
'translate-train' 82.603

xquad/el

  • Descrição da configuração : divisão de teste XQuAD 'el', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 499.40 MiB

  • Tamanho do conjunto de dados : 157.90 MiB

  • Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando shuffle_files=False (translate-train)

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.100
'translate-test' 1.182
'translate-train' 79.946

xquad/es

  • Descrição da configuração : divisão de teste XQuAD 'es', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 138.41 MiB

  • Tamanho do conjunto de dados : 104.96 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.566
'translate-test' 1.188
'translate-train' 87.488

xquad/hi

  • Descrição da configuração : divisão de teste XQuAD 'hi', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 472.23 MiB

  • Tamanho do conjunto de dados : 207.85 MiB

  • Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando shuffle_files=False (translate-train)

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.536
'translate-test' 1.184
'translate-train' 85.804

xquad/ru

  • Descrição da configuração : divisão de teste XQuAD 'ru', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 513.80 MiB

  • Tamanho do conjunto de dados : 159.38 MiB

  • Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando shuffle_files=False (translate-train)

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.469
'translate-test' 1.190
'translate-train' 84.869

xquad/th

  • Descrição da configuração : divisão de teste XQuAD 'th', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 461.54 MiB

  • Tamanho do conjunto de dados : 199.57 MiB

  • Cache automático ( documentação ): Sim (teste, translate-dev, translate-test), somente quando shuffle_files=False (translate-train)

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.516
'translate-test' 1.157
'translate-train' 85.846

xquad/tr

  • Descrição da configuração : divisão de teste XQuAD 'tr', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 151.08 MiB

  • Tamanho do conjunto de dados : 97.56 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.535
'translate-test' 1.112
'translate-train' 86.511

xquad/vi

  • Descrição da configuração : divisão de teste XQuAD 'vi', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 218.09 MiB

  • Tamanho do conjunto de dados : 120.03 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.555
'translate-test' 1.178
'translate-train' 87.187

xquad/zh

  • Descrição da configuração : divisão de teste XQuAD 'zh', com divisões de traduzir-trem/traduzir-dev/traduzir-teste traduzidas por máquina de XTREME (Hu et al., 2020).

  • Tamanho do download : 174.57 MiB

  • Tamanho do conjunto de dados : 80.79 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.190
'translate-dev' 10.475
'translate-test' 1.186
'translate-train' 85.700

xquad/en

  • Descrição da configuração : Divisão de teste XQuaD 'en'.

  • Tamanho do download : 595.10 KiB

  • Tamanho do conjunto de dados : 1.19 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.190