xquad

  • Mô tả :

XQuAD (Tập dữ liệu trả lời câu hỏi đa ngôn ngữ) là tập dữ liệu chuẩn để đánh giá hiệu suất trả lời câu hỏi đa ngôn ngữ. Tập dữ liệu bao gồm một tập con gồm 240 đoạn văn và 1190 cặp câu hỏi-câu trả lời từ bộ phát triển của SQuAD v1.1 (Rajpurkar và cộng sự, 2016) cùng với các bản dịch chuyên nghiệp của họ sang mười ngôn ngữ: Tây Ban Nha, Đức, Hy Lạp, Nga, Thổ Nhĩ Kỳ , Tiếng Ả Rập, tiếng Việt, tiếng Thái, tiếng Trung và tiếng Hindi. Do đó, tập dữ liệu hoàn toàn song song trên 11 ngôn ngữ. Để chạy XQuAD trong cài đặt zero-shot mặc định, hãy sử dụng dữ liệu đào tạo và xác thực SQuAD v1.1 tại đây: https://www.tensorflow.org/datasets/catalog/squad

Chúng tôi cũng bao gồm các phần tách "dịch-đào tạo", "dịch-dev" và "dịch-kiểm tra" cho từng ngôn ngữ không phải tiếng Anh từ XTREME (Hu và cộng sự, 2020). Chúng có thể được sử dụng để chạy XQuAD trong cài đặt "dịch-đào tạo" hoặc "kiểm tra dịch".

  • Trang chủ : https://github.com/deepmind/xquad

  • Mã nguồn : tfds.question_answering.Xquad

  • Các phiên bản :

    • 3.0.0 (mặc định): Khắc phục sự cố với một số ví dụ trong đó các khoảng trả lời bị lệch do loại bỏ khoảng trắng ngữ cảnh. Thay đổi này ảnh hưởng đến khoảng 14% các ví dụ thử nghiệm.
  • Các tính năng :

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad / ar (cấu hình mặc định)

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'ar', với các phân tách thử nghiệm dịch-đào tạo / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 420.97 MiB

  • Kích thước tập dữ liệu: 134.83 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10,541
'translate-test' 1.151
'translate-train' 86.787

xquad / de

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'de', với các phân tách dịch-huấn luyện / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 127.04 MiB

  • Kích thước tập dữ liệu : 98.80 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10.371
'translate-test' 1.168
'translate-train' 82.603

xquad / el

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'el', với các phân tách dịch-huấn luyện / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 499.40 MiB

  • Kích thước tập dữ liệu: 157.90 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (thử nghiệm, dịch-dev, dịch-thử nghiệm), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10.100
'translate-test' 1.182
'translate-train' 79,946

xquad / es

  • Mô tả cấu hình : Phần tách kiểm tra XQuAD 'es', với các phần tách kiểm tra dịch-train / translate-dev / translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 138.41 MiB

  • Kích thước tập dữ liệu: 104.96 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10,566
'translate-test' 1.188
'translate-train' 87.488

xquad / xin chào

  • Mô tả cấu hình : Phần tách kiểm tra XQuAD 'hi', với phần tách kiểm tra dịch-đào tạo / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 472.23 MiB

  • Kích thước tập dữ liệu: 207.85 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (thử nghiệm, dịch-dev, dịch-thử nghiệm), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10,536
'translate-test' 1.184
'translate-train' 85.804

xquad / ru

  • Mô tả cấu hình : Phần tách thử nghiệm 'ru' của XQuAD, với phần tách kiểm tra dịch-đào tạo / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 513.80 MiB

  • Kích thước tập dữ liệu: 159.38 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (thử nghiệm, dịch-dev, dịch-thử nghiệm), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10.469
'translate-test' 1.190
'translate-train' 84.869

xquad / th

  • Mô tả cấu hình : Phần tách thử nghiệm XQuAD 'th', với phần tách kiểm tra dịch-đào tạo / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 461.54 MiB

  • Kích thước tập dữ liệu: 199.57 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (thử nghiệm, dịch-dev, dịch-thử nghiệm), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10,516
'translate-test' 1.157
'translate-train' 85.846

xquad / tr

  • Mô tả cấu hình : Phần tách thử nghiệm XQuAD 'tr', với phần tách kiểm tra dịch-đào tạo / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 151.08 MiB

  • Kích thước tập dữ liệu: 97.56 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10,535
'translate-test' 1.112
'translate-train' 86.511

xquad / vi

  • Mô tả cấu hình : Phần tách thử nghiệm XQuAD 'vi', với phần tách kiểm tra dịch-đào tạo / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 218.09 MiB

  • Kích thước tập dữ liệu: 120.03 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10,555
'translate-test' 1.178
'translate-train' 87.187

xquad / zh

  • Mô tả cấu hình : Phần tách thử nghiệm XQuAD 'zh', với phần tách kiểm tra dịch-đào tạo / dịch-dev / dịch-thử nghiệm do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 174.57 MiB

  • Kích thước tập dữ liệu: 80.79 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.190
'translate-dev' 10.475
'translate-test' 1.186
'translate-train' 85.700

xquad / en

  • Mô tả cấu hình : Phần tách thử nghiệm XQuAD 'en'.

  • Kích thước tải xuống : 595.10 KiB

  • Kích thước tập dữ liệu : 1.19 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.190