câu hỏi_ tự nhiên

  • Mô tả :

Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây.

Tách ra Các ví dụ
'train' 307.373
'validation' 7.830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions / default (cấu hình mặc định)

  • Mô tả cấu hình : Cấu hình natural_questions mặc định

  • Kích thước tập dữ liệu : 90.26 GiB

  • Cấu trúc tính năng :

FeaturesDict({
    'annotations': Sequence({
        'id': tf.string,
        'long_answer': FeaturesDict({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
        }),
        'short_answers': Sequence({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
            'text': Text(shape=(), dtype=tf.string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'tokens': Sequence({
            'is_html': tf.bool,
            'token': Text(shape=(), dtype=tf.string),
        }),
        'url': Text(shape=(), dtype=tf.string),
    }),
    'id': tf.string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=tf.string),
        'tokens': Sequence(tf.string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
chú thích Sự phối hợp
chú thích / id Tensor tf.string
chú thích / long_answer Các tính năng
chú thích / long_answer / end_byte Tensor tf.int64
chú thích / long_answer / end_token Tensor tf.int64
chú thích / long_answer / start_byte Tensor tf.int64
chú thích / long_answer / start_token Tensor tf.int64
chú thích / short_answers Sự phối hợp
chú thích / short_answers / end_byte Tensor tf.int64
chú thích / short_answers / end_token Tensor tf.int64
chú thích / short_answers / start_byte Tensor tf.int64
chú thích / short_answers / start_token Tensor tf.int64
chú thích / short_answers / text Chữ tf.string
chú thích / yes_no_answer ClassLabel tf.int64
tài liệu Các tính năng
document / html Chữ tf.string
tiêu đề tài liệu Chữ tf.string
tài liệu / mã thông báo Sự phối hợp
document / tokens / is_html Tensor tf.bool
tài liệu / mã thông báo / mã thông báo Chữ tf.string
tài liệu / url Chữ tf.string
Tôi Tensor tf.string
câu hỏi Các tính năng
câu hỏi / văn bản Chữ tf.string
câu hỏi / mã thông báo Trình tự (Tensor) (Không có,) tf.string

natural_questions / longt5

  • Mô tả cấu hình : natural_questions được xử lý trước như trong điểm chuẩn longT5

  • Kích thước tập dữ liệu : 8.91 GiB

  • Cấu trúc tính năng :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
    'answer': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
all_answers Trình tự (Văn bản) (Không có,) tf.string
câu trả lời Chữ tf.string
định nghĩa bài văn Chữ tf.string
Tôi Chữ tf.string
câu hỏi Chữ tf.string
Tiêu đề Chữ tf.string