- Mô tả :
Bộ dữ liệu trả lời câu hỏi Stanford (SQuAD) là một bộ dữ liệu đọc hiểu, bao gồm các câu hỏi được đặt ra bởi những người cộng tác trên một tập hợp các bài viết trên Wikipedia, trong đó câu trả lời cho mọi câu hỏi là một đoạn văn bản hoặc khoảng từ đoạn văn đọc tương ứng hoặc câu hỏi có thể không trả lời được.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://rajpurkar.github.io/SQuAD-explorer/
Mã nguồn :
tfds.datasets.squad.Builder
Phiên bản :
-
3.0.0
(mặc định): Khắc phục sự cố với một số ít ví dụ (19) trong đó các khoảng trả lời bị lệch do loại bỏ khoảng trắng trong ngữ cảnh.
-
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
đội/v1.1 (cấu hình mặc định)
Mô tả cấu hình : Phiên bản 1.1.0 của SQUAD
Kích thước tải xuống :
33.51 MiB
Kích thước tập dữ liệu :
94.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 87,599 |
'validation' | 10.570 |
- Cấu trúc tính năng :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
câu trả lời | Sự liên tiếp | |||
câu trả lời/answer_start | tenxơ | int32 | ||
câu trả lời/văn bản | Chữ | chuỗi | ||
định nghĩa bài văn | Chữ | chuỗi | ||
Tôi | tenxơ | chuỗi | ||
câu hỏi | Chữ | chuỗi | ||
chức vụ | Chữ | chuỗi |
- Ví dụ ( tfds.as_dataframe ):
đội/v2.0
Mô tả cấu hình : Phiên bản 2.0.0 của SQUAD
Kích thước tải xuống :
44.34 MiB
Kích thước tập dữ liệu :
148.54 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 130,319 |
'validation' | 11,873 |
- Cấu trúc tính năng :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
câu trả lời | Sự liên tiếp | |||
câu trả lời/answer_start | tenxơ | int32 | ||
câu trả lời/văn bản | Chữ | chuỗi | ||
định nghĩa bài văn | Chữ | chuỗi | ||
Tôi | tenxơ | chuỗi | ||
is_impossible | tenxơ | bool | ||
hợp lý_answers | Sự liên tiếp | |||
hợp lý_answers/answer_start | tenxơ | int32 | ||
hợp lý_answers/văn bản | Chữ | chuỗi | ||
câu hỏi | Chữ | chuỗi | ||
chức vụ | Chữ | chuỗi |
- Ví dụ ( tfds.as_dataframe ):