- Mô tả :
Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây.
Trang chủ : https://ai.google.com/research/NaturalQuestions/dataset
Mã nguồn :
tfds.question_answering.NaturalQuestions
Các phiên bản :
-
0.0.2
: Không có ghi chú phát hành. -
0.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
41.97 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 307.373 |
'validation' | 7.830 |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions / default (cấu hình mặc định)
Mô tả cấu hình : Cấu hình natural_questions mặc định
Kích thước tập dữ liệu :
90.26 GiB
Cấu trúc tính năng :
FeaturesDict({
'annotations': Sequence({
'id': tf.string,
'long_answer': FeaturesDict({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
}),
'short_answers': Sequence({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
'text': Text(shape=(), dtype=tf.string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'tokens': Sequence({
'is_html': tf.bool,
'token': Text(shape=(), dtype=tf.string),
}),
'url': Text(shape=(), dtype=tf.string),
}),
'id': tf.string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
'tokens': Sequence(tf.string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
chú thích | Sự phối hợp | |||
chú thích / id | Tensor | tf.string | ||
chú thích / long_answer | Các tính năng | |||
chú thích / long_answer / end_byte | Tensor | tf.int64 | ||
chú thích / long_answer / end_token | Tensor | tf.int64 | ||
chú thích / long_answer / start_byte | Tensor | tf.int64 | ||
chú thích / long_answer / start_token | Tensor | tf.int64 | ||
chú thích / short_answers | Sự phối hợp | |||
chú thích / short_answers / end_byte | Tensor | tf.int64 | ||
chú thích / short_answers / end_token | Tensor | tf.int64 | ||
chú thích / short_answers / start_byte | Tensor | tf.int64 | ||
chú thích / short_answers / start_token | Tensor | tf.int64 | ||
chú thích / short_answers / text | Chữ | tf.string | ||
chú thích / yes_no_answer | ClassLabel | tf.int64 | ||
tài liệu | Các tính năng | |||
document / html | Chữ | tf.string | ||
tiêu đề tài liệu | Chữ | tf.string | ||
tài liệu / mã thông báo | Sự phối hợp | |||
document / tokens / is_html | Tensor | tf.bool | ||
tài liệu / mã thông báo / mã thông báo | Chữ | tf.string | ||
tài liệu / url | Chữ | tf.string | ||
Tôi | Tensor | tf.string | ||
câu hỏi | Các tính năng | |||
câu hỏi / văn bản | Chữ | tf.string | ||
câu hỏi / mã thông báo | Trình tự (Tensor) | (Không có,) | tf.string |
- Ví dụ ( tfds.as_dataframe ):
natural_questions / longt5
Mô tả cấu hình : natural_questions được xử lý trước như trong điểm chuẩn longT5
Kích thước tập dữ liệu :
8.91 GiB
Cấu trúc tính năng :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
'answer': Text(shape=(), dtype=tf.string),
'context': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
all_answers | Trình tự (Văn bản) | (Không có,) | tf.string | |
câu trả lời | Chữ | tf.string | ||
định nghĩa bài văn | Chữ | tf.string | ||
Tôi | Chữ | tf.string | ||
câu hỏi | Chữ | tf.string | ||
Tiêu đề | Chữ | tf.string |
- Ví dụ ( tfds.as_dataframe ):