mlqa

  • Mô tả:

MLQA (Tập dữ liệu trả lời câu hỏi đa ngôn ngữ) là tập dữ liệu chuẩn để đánh giá hiệu suất trả lời câu hỏi đa ngôn ngữ. Bộ dữ liệu bao gồm 7 ngôn ngữ: Ả Rập, Đức, Tây Ban Nha, Anh, Hindi, Việt Nam, Trung Quốc.

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{lewis2019mlqa,
  title={MLQA: Evaluating Cross-lingual Extractive Question Answering},
  author={Lewis, Patrick and Ouguz, Barlas and Rinott, Ruty and Riedel,   Sebastian and Schwenk, Holger},
  journal={arXiv preprint arXiv:1910.07475},
  year={2019}
}

mlqa / ar (cấu hình mặc định)

  • Config mô tả: MLQA 'ar' dev và chia tách thử nghiệm.

  • Dataset kích thước: 9.27 MiB

  • tách:

Tách ra Các ví dụ
'test' 5.335
'validation' 517

mlqa / de

  • Config mô tả: MLQA 'de' dev và chia tách thử nghiệm.

  • Dataset kích thước: 5.06 MiB

  • tách:

Tách ra Các ví dụ
'test' 4,517
'validation' 512

mlqa / vi

  • Config mô tả: MLQA 'en' dev và chia tách thử nghiệm.

  • Dataset kích thước: 15.72 MiB

  • tách:

Tách ra Các ví dụ
'test' 11.590
'validation' 1.148

mlqa / es

  • Config mô tả: MLQA 'es' dev và thử nghiệm chia tách.

  • Dataset kích thước: 5.09 MiB

  • tách:

Tách ra Các ví dụ
'test' 5.253
'validation' 500

mlqa / chào

  • Config mô tả: MLQA 'hi' dev và chia tách thử nghiệm.

  • Dataset kích thước: 12.83 MiB

  • tách:

Tách ra Các ví dụ
'test' 4.918
'validation' 507

mlqa / vi

  • Config mô tả: MLQA 'vi' dev và chia tách thử nghiệm.

  • Dataset kích thước: 8.77 MiB

  • tách:

Tách ra Các ví dụ
'test' 5,495
'validation' 511

mlqa / zh

  • Config mô tả: chia MLQA 'zh' dev và thử nghiệm.

  • Dataset kích thước: 5.13 MiB

  • tách:

Tách ra Các ví dụ
'test' 5.137
'validation' 504