câu hỏi_ tự nhiên

Mô tả :

Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://ai.google.com/research/NaturalQuestions/dataset
Mã nguồn : tfds.datasets.natural_questions.Builder
Phiên bản :
- 0.0.2 : Không có ghi chú phát hành.
- 0.1.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : 41.97 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'train'`	307,373
`'validation'`	7.830

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (cấu hình mặc định)

Mô tả cấu hình : Cấu hình natural_questions mặc định
Kích thước tập dữ liệu : 90.26 GiB
Cấu trúc tính năng :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	Dtype
	Tính năngDict
chú thích	Sự liên tiếp
chú thích/id	tenxơ		sợi dây
chú thích/long_answer	Tính năngDict
chú thích/long_answer/end_byte	tenxơ		int64
chú thích/long_answer/end_token	tenxơ		int64
chú thích/long_answer/start_byte	tenxơ		int64
chú thích/long_answer/start_token	tenxơ		int64
chú thích/short_answers	Sự liên tiếp
chú thích/short_answers/end_byte	tenxơ		int64
chú thích/short_answers/end_token	tenxơ		int64
chú thích/short_answers/start_byte	tenxơ		int64
chú thích/short_answers/start_token	tenxơ		int64
chú thích/short_answers/văn bản	Chữ		sợi dây
chú thích/yes_no_answer	LớpNhãn		int64
tài liệu	Tính năngDict
tài liệu/html	Chữ		sợi dây
tiêu đề tài liệu	Chữ		sợi dây
tài liệu/mã thông báo	Sự liên tiếp
tài liệu/mã thông báo/is_html	tenxơ		bool
tài liệu/mã thông báo/mã thông báo	Chữ		sợi dây
tài liệu/url	Chữ		sợi dây
nhận dạng	tenxơ		sợi dây
câu hỏi	Tính năngDict
câu hỏi/văn bản	Chữ		sợi dây
câu hỏi/mã thông báo	Trình tự (Tensor)	(Không có,)	sợi dây

Ví dụ ( tfds.as_dataframe ):

natural_questions/longt5

Mô tả cấu hình : natural_questions được xử lý trước như trong điểm chuẩn longT5
Kích thước tập dữ liệu : 8.91 GiB
Cấu trúc tính năng :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	Dtype
	Tính năngDict
all_answers	Trình tự (Văn bản)	(Không có,)	sợi dây
trả lời	Chữ		sợi dây
bối cảnh	Chữ		sợi dây
nhận dạng	Chữ		sợi dây
câu hỏi	Chữ		sợi dây
tiêu đề	Chữ		sợi dây

Ví dụ ( tfds.as_dataframe ):

câu hỏi_ tự nhiên Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

natural_questions/default (cấu hình mặc định)

natural_questions/longt5

câu hỏi_ tự nhiên