trivia_qa

Mô tả :

TriviaqQA là bộ dữ liệu đọc hiểu chứa hơn 650 nghìn bộ ba câu hỏi-câu trả lời-bằng chứng. TriviaqQA bao gồm 95 nghìn cặp câu hỏi-câu trả lời do những người đam mê câu đố soạn thảo và các tài liệu bằng chứng được thu thập độc lập, trung bình sáu cặp cho mỗi câu hỏi, cung cấp khả năng giám sát từ xa chất lượng cao để trả lời các câu hỏi.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://nlp.cs.washington.edu/triviaqa/
Mã nguồn : tfds.datasets.trivia_qa.Builder
Phiên bản :
- 1.1.0 (mặc định): Không có ghi chú phát hành.
Cấu trúc tính năng :

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	Dtype
	Tính năngDict
trả lời	Tính năngDict
câu trả lời/bí danh	Trình tự (Văn bản)	(Không có,)	sợi dây
câu trả lời/matched_wiki_entity_name	Chữ		sợi dây
câu trả lời/chuẩn hóa_aliases	Trình tự (Văn bản)	(Không có,)	sợi dây
câu trả lời/chuẩn hóa_matched_wiki_entity_name	Chữ		sợi dây
câu trả lời/giá trị chuẩn hóa	Chữ		sợi dây
câu trả lời/gõ	Chữ		sợi dây
câu trả lời/giá trị	Chữ		sợi dây
thực thể_trang	Sự liên tiếp
entity_pages/doc_source	Chữ		sợi dây
thực thể_trang/tên tệp	Chữ		sợi dây
thực thể_trang/tiêu đề	Chữ		sợi dây
entity_pages/wiki_context	Chữ		sợi dây
câu hỏi	Chữ		sợi dây
question_id	Chữ		sợi dây
câu hỏi_nguồn	Chữ		sợi dây
kết quả tìm kiếm	Sự liên tiếp
search_results/mô tả	Chữ		sợi dây
search_results/tên tệp	Chữ		sợi dây
kết quả tìm kiếm/xếp hạng	tenxơ		int32
search_results/search_context	Chữ		sợi dây
search_results/title	Chữ		sợi dây
search_results/url	Chữ		sợi dây

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (cấu hình mặc định)

Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống : 2.48 GiB
Kích thước tập dữ liệu : 14.99 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ví dụ ( tfds.as_dataframe ):

trivia_qa/rc.nocontext

Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời.
Kích thước tải xuống : 2.48 GiB
Kích thước tập dữ liệu : 196.84 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)
Chia tách :

Tách ra	ví dụ
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ví dụ ( tfds.as_dataframe ):

trivia_qa/chưa lọc

Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống : 3.07 GiB
Kích thước tập dữ liệu : 27.27 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ví dụ ( tfds.as_dataframe ):

trivia_qa/unfiltered.nocontext

Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR.
Kích thước tải xuống : 603.25 MiB
Kích thước tập dữ liệu : 119.78 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ví dụ ( tfds.as_dataframe ):

Mô tả :

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://nlp.cs.washington.edu/triviaqa/
Mã nguồn : tfds.datasets.trivia_qa.Builder
Phiên bản :
- 1.1.0 (mặc định): Không có ghi chú phát hành.
Cấu trúc tính năng :

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	Dtype
	Tính năngDict
trả lời	Tính năngDict
câu trả lời/bí danh	Trình tự (Văn bản)	(Không có,)	sợi dây
câu trả lời/matched_wiki_entity_name	Chữ		sợi dây
câu trả lời/chuẩn hóa_aliases	Trình tự (Văn bản)	(Không có,)	sợi dây
câu trả lời/chuẩn hóa_matched_wiki_entity_name	Chữ		sợi dây
câu trả lời/giá trị chuẩn hóa	Chữ		sợi dây
câu trả lời/gõ	Chữ		sợi dây
câu trả lời/giá trị	Chữ		sợi dây
thực thể_trang	Sự liên tiếp
entity_pages/doc_source	Chữ		sợi dây
thực thể_trang/tên tệp	Chữ		sợi dây
thực thể_trang/tiêu đề	Chữ		sợi dây
entity_pages/wiki_context	Chữ		sợi dây
câu hỏi	Chữ		sợi dây
question_id	Chữ		sợi dây
câu hỏi_nguồn	Chữ		sợi dây
kết quả tìm kiếm	Sự liên tiếp
search_results/mô tả	Chữ		sợi dây
search_results/tên tệp	Chữ		sợi dây
kết quả tìm kiếm/xếp hạng	tenxơ		int32
search_results/search_context	Chữ		sợi dây
search_results/title	Chữ		sợi dây
search_results/url	Chữ		sợi dây

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (cấu hình mặc định)

Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống : 2.48 GiB
Kích thước tập dữ liệu : 14.99 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ví dụ ( tfds.as_dataframe ):

trivia_qa/rc.nocontext

Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời.
Kích thước tải xuống : 2.48 GiB
Kích thước tập dữ liệu : 196.84 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)
Chia tách :

Tách ra	ví dụ
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ví dụ ( tfds.as_dataframe ):

trivia_qa/chưa lọc

Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.
Kích thước tải xuống : 3.07 GiB
Kích thước tập dữ liệu : 27.27 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ví dụ ( tfds.as_dataframe ):

trivia_qa/unfiltered.nocontext

Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR.
Kích thước tải xuống : 603.25 MiB
Kích thước tập dữ liệu : 119.78 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ví dụ ( tfds.as_dataframe ):