- Mô tả :
TriviaqQA là bộ dữ liệu đọc hiểu chứa hơn 650 nghìn bộ ba câu hỏi-câu trả lời-bằng chứng. TriviaqQA bao gồm 95 nghìn cặp câu hỏi-câu trả lời do những người đam mê câu đố soạn thảo và các tài liệu bằng chứng được thu thập độc lập, trung bình sáu cặp cho mỗi câu hỏi, cung cấp khả năng giám sát từ xa chất lượng cao để trả lời các câu hỏi.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://nlp.cs.washington.edu/triviaqa/
Mã nguồn :
tfds.datasets.trivia_qa.Builder
Phiên bản :
-
1.1.0
(mặc định): Không có ghi chú phát hành.
-
Cấu trúc tính năng :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
trả lời | Tính năngDict | |||
câu trả lời/bí danh | Trình tự (Văn bản) | (Không có,) | sợi dây | |
câu trả lời/matched_wiki_entity_name | Chữ | sợi dây | ||
câu trả lời/chuẩn hóa_aliases | Trình tự (Văn bản) | (Không có,) | sợi dây | |
câu trả lời/chuẩn hóa_matched_wiki_entity_name | Chữ | sợi dây | ||
câu trả lời/giá trị chuẩn hóa | Chữ | sợi dây | ||
câu trả lời/gõ | Chữ | sợi dây | ||
câu trả lời/giá trị | Chữ | sợi dây | ||
thực thể_trang | Sự liên tiếp | |||
entity_pages/doc_source | Chữ | sợi dây | ||
thực thể_trang/tên tệp | Chữ | sợi dây | ||
thực thể_trang/tiêu đề | Chữ | sợi dây | ||
entity_pages/wiki_context | Chữ | sợi dây | ||
câu hỏi | Chữ | sợi dây | ||
question_id | Chữ | sợi dây | ||
câu hỏi_nguồn | Chữ | sợi dây | ||
kết quả tìm kiếm | Sự liên tiếp | |||
search_results/mô tả | Chữ | sợi dây | ||
search_results/tên tệp | Chữ | sợi dây | ||
kết quả tìm kiếm/xếp hạng | tenxơ | int32 | ||
search_results/search_context | Chữ | sợi dây | ||
search_results/title | Chữ | sợi dây | ||
search_results/url | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (cấu hình mặc định)
Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống :
2.48 GiB
Kích thước tập dữ liệu :
14.99 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ví dụ ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời.
Kích thước tải xuống :
2.48 GiB
Kích thước tập dữ liệu :
196.84 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ví dụ ( tfds.as_dataframe ):
trivia_qa/chưa lọc
Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống :
3.07 GiB
Kích thước tập dữ liệu :
27.27 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ví dụ ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR.
Kích thước tải xuống :
603.25 MiB
Kích thước tập dữ liệu :
119.78 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ví dụ ( tfds.as_dataframe ):
- Mô tả :
TriviaqQA là bộ dữ liệu đọc hiểu chứa hơn 650 nghìn bộ ba câu hỏi-câu trả lời-bằng chứng. TriviaqQA bao gồm 95 nghìn cặp câu hỏi-câu trả lời do những người đam mê câu đố soạn thảo và các tài liệu bằng chứng được thu thập độc lập, trung bình sáu cặp cho mỗi câu hỏi, cung cấp khả năng giám sát từ xa chất lượng cao để trả lời các câu hỏi.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://nlp.cs.washington.edu/triviaqa/
Mã nguồn :
tfds.datasets.trivia_qa.Builder
Phiên bản :
-
1.1.0
(mặc định): Không có ghi chú phát hành.
-
Cấu trúc tính năng :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
trả lời | Tính năngDict | |||
câu trả lời/bí danh | Trình tự (Văn bản) | (Không có,) | sợi dây | |
câu trả lời/matched_wiki_entity_name | Chữ | sợi dây | ||
câu trả lời/chuẩn hóa_aliases | Trình tự (Văn bản) | (Không có,) | sợi dây | |
câu trả lời/chuẩn hóa_matched_wiki_entity_name | Chữ | sợi dây | ||
câu trả lời/giá trị chuẩn hóa | Chữ | sợi dây | ||
câu trả lời/gõ | Chữ | sợi dây | ||
câu trả lời/giá trị | Chữ | sợi dây | ||
thực thể_trang | Sự liên tiếp | |||
entity_pages/doc_source | Chữ | sợi dây | ||
thực thể_trang/tên tệp | Chữ | sợi dây | ||
thực thể_trang/tiêu đề | Chữ | sợi dây | ||
entity_pages/wiki_context | Chữ | sợi dây | ||
câu hỏi | Chữ | sợi dây | ||
question_id | Chữ | sợi dây | ||
câu hỏi_nguồn | Chữ | sợi dây | ||
kết quả tìm kiếm | Sự liên tiếp | |||
search_results/mô tả | Chữ | sợi dây | ||
search_results/tên tệp | Chữ | sợi dây | ||
kết quả tìm kiếm/xếp hạng | tenxơ | int32 | ||
search_results/search_context | Chữ | sợi dây | ||
search_results/title | Chữ | sợi dây | ||
search_results/url | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (cấu hình mặc định)
Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống :
2.48 GiB
Kích thước tập dữ liệu :
14.99 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ví dụ ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời.
Kích thước tải xuống :
2.48 GiB
Kích thước tập dữ liệu :
196.84 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ví dụ ( tfds.as_dataframe ):
trivia_qa/chưa lọc
Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống :
3.07 GiB
Kích thước tập dữ liệu :
27.27 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ví dụ ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR.
Kích thước tải xuống :
603.25 MiB
Kích thước tập dữ liệu :
119.78 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ví dụ ( tfds.as_dataframe ):