- Mô tả :
Điểm chuẩn UnifiedQA bao gồm 20 bộ dữ liệu trả lời câu hỏi (QA) chính (mỗi bộ có thể có nhiều phiên bản) hướng đến các định dạng khác nhau cũng như các hiện tượng ngôn ngữ phức tạp khác nhau. Các bộ dữ liệu này được nhóm thành một số định dạng/danh mục, bao gồm: QA khai thác, QA trừu tượng, QA trắc nghiệm và QA có/không. Ngoài ra, các bộ tương phản được sử dụng cho một số bộ dữ liệu (được biểu thị bằng " bộ tương phản"). Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc. Đối với một số bộ dữ liệu không đi kèm với các đoạn bằng chứng, hai biến thể được bao gồm: một biến thể trong đó các bộ dữ liệu được sử dụng nguyên trạng và một biến thể khác sử dụng các đoạn được tìm nạp thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung, được biểu thị bằng thẻ "_ir".
Thông tin thêm có thể được tìm thấy tại: https://github.com/allenai/unifiedqa
Trang chủ : https://github.com/allenai/unifiedqa
Mã nguồn :
tfds.text.unifiedqa.UnifiedQA
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Cấu trúc tính năng :
FeaturesDict({
'input': string,
'output': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
đầu vào | tenxơ | sợi dây | ||
đầu ra | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
unity_qa/ai2_science_elementary (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi là định dạng trắc nghiệm 4 chiều và có thể có hoặc không có yếu tố sơ đồ. Bộ này gồm các câu hỏi dùng cho các cấp học tiểu học.
Kích thước tải xuống :
345.59 KiB
Kích thước tập dữ liệu :
390.02 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 542 |
'train' | 623 |
'validation' | 123 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/ai2_science_middle
Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi là định dạng trắc nghiệm 4 chiều và có thể có hoặc không có yếu tố sơ đồ. Bộ này bao gồm các câu hỏi được sử dụng cho các cấp học trung học cơ sở.
Kích thước tải xuống :
428.41 KiB
Kích thước tập dữ liệu :
477.40 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 679 |
'train' | 605 |
'validation' | 125 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/ambigqa
Mô tả cấu hình : AmbigQA là một nhiệm vụ trả lời câu hỏi miền mở bao gồm việc tìm kiếm mọi câu trả lời hợp lý, sau đó viết lại câu hỏi cho từng câu hỏi để giải quyết sự mơ hồ.
Kích thước tải xuống :
2.27 MiB
Kích thước tập dữ liệu :
3.04 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 19,806 |
'validation' | 5,674 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{min-etal-2020-ambigqa,
title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
author = "Min, Sewon and
Michael, Julian and
Hajishirzi, Hannaneh and
Zettlemoyer, Luke",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.466",
doi = "10.18653/v1/2020.emnlp-main.466",
pages = "5783--5797",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_easy
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng".
Kích thước tải xuống :
1.24 MiB
Kích thước tập dữ liệu :
1.42 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_easy_dev
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng".
Kích thước tải xuống :
1.24 MiB
Kích thước tập dữ liệu :
1.42 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_easy_with_ir
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
7.00 MiB
Kích thước tập dữ liệu :
7.17 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_easy_with_ir_dev
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
7.00 MiB
Kích thước tập dữ liệu :
7.17 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_hard
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó".
Kích thước tải xuống :
758.03 KiB
Kích thước tập dữ liệu :
848.28 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_hard_dev
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó".
Kích thước tải xuống :
758.03 KiB
Kích thước tập dữ liệu :
848.28 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_hard_with_ir
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
3.53 MiB
Kích thước tập dữ liệu :
3.62 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/arc_hard_with_ir_dev
Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
3.53 MiB
Kích thước tập dữ liệu :
3.62 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/boolq
Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho câu hỏi có/không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong các cài đặt không bị ràng buộc và không bị ràng buộc. Mỗi ví dụ là một bộ ba (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các tác vụ suy luận ngôn ngữ tự nhiên hiện có.
Kích thước tải xuống :
7.77 MiB
Kích thước tập dữ liệu :
8.20 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 9,427 |
'validation' | 3.270 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/boolq_np
Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho câu hỏi có/không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong các cài đặt không bị ràng buộc và không bị ràng buộc. Mỗi ví dụ là một bộ ba (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các tác vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này thêm nhiễu loạn tự nhiên vào phiên bản gốc.
Kích thước tải xuống :
10.80 MiB
Kích thước tập dữ liệu :
11.40 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 9,727 |
'validation' | 7,596 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{khashabi-etal-2020-bang,
title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
author = "Khashabi, Daniel and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.12",
doi = "10.18653/v1/2020.emnlp-main.12",
pages = "163--170",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/commonsenseqa
Mô tả cấu hình : CommonsenseQA là bộ dữ liệu trả lời câu hỏi trắc nghiệm mới yêu cầu các loại kiến thức thông thường khác nhau để dự đoán câu trả lời đúng. Nó bao gồm các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây phân tâm.
Kích thước tải xuống :
1.79 MiB
Kích thước tập dữ liệu :
2.19 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.140 |
'train' | 9,741 |
'validation' | 1.221 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/commonsenseqa_test
Mô tả cấu hình : CommonsenseQA là bộ dữ liệu trả lời câu hỏi trắc nghiệm mới yêu cầu các loại kiến thức thông thường khác nhau để dự đoán câu trả lời đúng. Nó bao gồm các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây phân tâm.
Kích thước tải xuống :
1.79 MiB
Kích thước tập dữ liệu :
2.19 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.140 |
'train' | 9,741 |
'validation' | 1.221 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/contrast_sets_boolq
Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho câu hỏi có/không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong các cài đặt không bị ràng buộc và không bị ràng buộc. Mỗi ví dụ là một bộ ba (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các tác vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
438.51 KiB
Kích thước tập dữ liệu :
462.35 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 340 |
'validation' | 340 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/contrast_sets_drop
Mô tả cấu hình : DROP là điểm chuẩn QA do đối thủ tạo ra, có nguồn lực cộng đồng, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là cho nhiều vị trí đầu vào và thực hiện các thao tác riêng biệt trên chúng (chẳng hạn như cộng, đếm hoặc sắp xếp). Các hoạt động này đòi hỏi sự hiểu biết toàn diện hơn về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
2.20 MiB
Kích thước tập dữ liệu :
2.26 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 947 |
'validation' | 947 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/contrast_sets_quoref
Mô tả cấu hình : Bộ dữ liệu này kiểm tra khả năng suy luận cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng này có chứa các câu hỏi về các đoạn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu chính trước khi chọn (các) khoảng thích hợp trong các đoạn để trả lời câu hỏi. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
2.60 MiB
Kích thước tập dữ liệu :
2.65 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 700 |
'validation' | 700 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/contrast_sets_ropes
Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn văn nền chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "các loài thụ phấn ở động vật làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới lạ sử dụng nền tảng này và các câu hỏi yêu cầu suy luận về tác động của các mối quan hệ trong đoạn nền trong ngữ cảnh của tình huống. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
1.97 MiB
Kích thước tập dữ liệu :
2.04 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 974 |
'validation' | 974 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
thống nhất_qa/thả
Mô tả cấu hình : DROP là điểm chuẩn QA do đối thủ tạo ra, có nguồn lực cộng đồng, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là cho nhiều vị trí đầu vào và thực hiện các thao tác riêng biệt trên chúng (chẳng hạn như cộng, đếm hoặc sắp xếp). Các hoạt động này đòi hỏi sự hiểu biết toàn diện hơn về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó.
Kích thước tải xuống :
105.18 MiB
Kích thước tập dữ liệu :
108.16 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 77,399 |
'validation' | 9,536 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/mctest
Mô tả cấu hình : MCTest yêu cầu máy trả lời các câu hỏi đọc hiểu trắc nghiệm về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp cao về khả năng hiểu của máy trong miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như lý luận nhân quả và hiểu thế giới, tuy nhiên, bằng cách trắc nghiệm, vẫn cung cấp một thước đo rõ ràng. Do là hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận ở mức trẻ nhỏ có thể hiểu, làm giảm kiến thức thế giới cần thiết cho nhiệm vụ.
Kích thước tải xuống :
2.14 MiB
Kích thước tập dữ liệu :
2.20 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.480 |
'validation' | 320 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/mctest_corrected_the_separator
Mô tả cấu hình : MCTest yêu cầu máy trả lời các câu hỏi đọc hiểu trắc nghiệm về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp cao về khả năng hiểu của máy trong miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như lý luận nhân quả và hiểu thế giới, tuy nhiên, bằng cách trắc nghiệm, vẫn cung cấp một thước đo rõ ràng. Do là hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận ở mức trẻ nhỏ có thể hiểu, làm giảm kiến thức thế giới cần thiết cho nhiệm vụ.
Kích thước tải xuống :
2.15 MiB
Kích thước tập dữ liệu :
2.21 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.480 |
'validation' | 320 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/multirc
Mô tả cấu hình : MultiRC là một thử thách đọc hiểu trong đó các câu hỏi chỉ có thể được trả lời bằng cách tính đến thông tin từ nhiều câu. Các câu hỏi và câu trả lời cho thử thách này đã được trưng cầu và xác minh thông qua thử nghiệm cung cấp dịch vụ cộng đồng gồm 4 bước. Bộ dữ liệu chứa các câu hỏi cho các đoạn văn trên 7 lĩnh vực khác nhau (khoa học tiểu học, tin tức, hướng dẫn du lịch, truyện viễn tưởng, v.v.) mang lại sự đa dạng về ngôn ngữ cho văn bản và từ ngữ của câu hỏi.
Kích thước tải xuống :
897.09 KiB
Kích thước tập dữ liệu :
918.42 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 312 |
'validation' | 312 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{khashabi-etal-2018-looking,
title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
author = "Khashabi, Daniel and
Chaturvedi, Snigdha and
Roth, Michael and
Upadhyay, Shyam and
Roth, Dan",
booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
month = jun,
year = "2018",
address = "New Orleans, Louisiana",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N18-1023",
doi = "10.18653/v1/N18-1023",
pages = "252--262",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/narrativeqa
Mô tả cấu hình : NarrativeQA là bộ dữ liệu bằng tiếng Anh gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.
Kích thước tải xuống :
308.28 MiB
Kích thước tập dữ liệu :
311.22 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 21,114 |
'train' | 65,494 |
'validation' | 6,922 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/narrativeqa_dev
Mô tả cấu hình : NarrativeQA là bộ dữ liệu bằng tiếng Anh gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.
Kích thước tải xuống :
308.28 MiB
Kích thước tập dữ liệu :
311.22 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 21,114 |
'train' | 65,494 |
'validation' | 6,922 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/natural_questions
Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó.
Kích thước tải xuống :
6.95 MiB
Kích thước tập dữ liệu :
9.88 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 96,075 |
'validation' | 2.295 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/natural_questions_direct_ans
Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.
Kích thước tải xuống :
6.82 MiB
Kích thước tập dữ liệu :
10.19 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6,468 |
'train' | 96,676 |
'validation' | 10,693 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/natural_questions_direct_ans_test
Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.
Kích thước tải xuống :
6.82 MiB
Kích thước tập dữ liệu :
10.19 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6,468 |
'train' | 96,676 |
'validation' | 10,693 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/natural_questions_with_dpr_para
Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các đoạn văn bổ sung (thu được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.
Kích thước tải xuống :
319.22 MiB
Kích thước tập dữ liệu :
322.91 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 96,676 |
'validation' | 10,693 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/natural_questions_with_dpr_para_test
Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các đoạn văn bổ sung (thu được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.
Kích thước tải xuống :
306.94 MiB
Kích thước tập dữ liệu :
310.48 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6,468 |
'train' | 96,676 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/newsqa
Mô tả cấu hình : NewsQA là một bộ dữ liệu máy hiểu đầy thách thức về các cặp câu hỏi-câu trả lời do con người tạo ra. Crowdworkers cung cấp câu hỏi và câu trả lời dựa trên một tập hợp các bài báo từ CNN, với câu trả lời bao gồm các đoạn văn bản từ các bài báo tương ứng.
Kích thước tải xuống :
283.33 MiB
Kích thước tập dữ liệu :
285.94 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 75,882 |
'validation' | 4.309 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{trischler-etal-2017-newsqa,
title = "{N}ews{QA}: A Machine Comprehension Dataset",
author = "Trischler, Adam and
Wang, Tong and
Yuan, Xingdi and
Harris, Justin and
Sordoni, Alessandro and
Bachman, Philip and
Suleman, Kaheer",
booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
month = aug,
year = "2017",
address = "Vancouver, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W17-2623",
doi = "10.18653/v1/W17-2623",
pages = "191--200",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/openbookqa
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.
Kích thước tải xuống :
942.34 KiB
Kích thước tập dữ liệu :
1.11 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/openbookqa_dev
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.
Kích thước tải xuống :
942.34 KiB
Kích thước tập dữ liệu :
1.11 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/openbookqa_with_ir
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
6.08 MiB
Kích thước tập dữ liệu :
6.28 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/openbookqa_with_ir_dev
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
6.08 MiB
Kích thước tập dữ liệu :
6.28 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/physical_iqa
Mô tả cấu hình : Đây là tập dữ liệu cho quá trình đo điểm chuẩn theo cách hiểu thông thường về vật lý. Nhiệm vụ cơ bản là trả lời câu hỏi trắc nghiệm: đưa ra một câu hỏi q và hai giải pháp khả thi s1, s2, người mẫu hoặc con người phải chọn giải pháp phù hợp nhất, trong đó có đúng một giải pháp đúng. Bộ dữ liệu tập trung vào các tình huống hàng ngày với ưu tiên cho các giải pháp không điển hình. Bộ dữ liệu được lấy cảm hứng từ http://www.guideables.com, cung cấp cho người dùng các hướng dẫn về cách xây dựng, chế tạo, nướng hoặc thao tác với các đối tượng bằng các vật liệu hàng ngày. Người chú thích được yêu cầu cung cấp các nhiễu loạn ngữ nghĩa hoặc các cách tiếp cận thay thế tương tự về mặt cú pháp và chủ đề để đảm bảo kiến thức vật lý được nhắm mục tiêu. Bộ dữ liệu được làm sạch thêm các thành phần tạo tác cơ bản bằng thuật toán AFLite.
Kích thước tải xuống :
6.01 MiB
Kích thước tập dữ liệu :
6.59 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 16,113 |
'validation' | 1.838 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{bisk2020piqa,
title={Piqa: Reasoning about physical commonsense in natural language},
author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={7432--7439},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/qasc
Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu.
Kích thước tải xuống :
1.75 MiB
Kích thước tập dữ liệu :
2.09 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/qasc_test
Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu.
Kích thước tải xuống :
1.75 MiB
Kích thước tập dữ liệu :
2.09 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/qasc_with_ir
Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
16.95 MiB
Kích thước tập dữ liệu :
17.30 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/qasc_with_ir_test
Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
16.95 MiB
Kích thước tập dữ liệu :
17.30 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/quoref
Mô tả cấu hình : Bộ dữ liệu này kiểm tra khả năng suy luận cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng này có chứa các câu hỏi về các đoạn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu chính trước khi chọn (các) khoảng thích hợp trong các đoạn để trả lời câu hỏi.
Kích thước tải xuống :
51.43 MiB
Kích thước tập dữ liệu :
52.29 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 22,265 |
'validation' | 2.768 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/race_string
Mô tả cấu hình : Race là một bộ dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.
Kích thước tải xuống :
167.97 MiB
Kích thước tập dữ liệu :
171.23 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 4,934 |
'train' | 87,863 |
'validation' | 4,887 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/race_string_dev
Mô tả cấu hình : Race là một bộ dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.
Kích thước tải xuống :
167.97 MiB
Kích thước tập dữ liệu :
171.23 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 4,934 |
'train' | 87,863 |
'validation' | 4,887 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/ropes
Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn văn nền chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "các loài thụ phấn ở động vật làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới lạ sử dụng nền tảng này và các câu hỏi yêu cầu suy luận về tác động của các mối quan hệ trong đoạn nền trong ngữ cảnh của tình huống.
Kích thước tải xuống :
12.91 MiB
Kích thước tập dữ liệu :
13.35 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 10,924 |
'validation' | 1.688 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
thống nhất_qa/xã hội_iqa
Mô tả cấu hình : Đây là điểm chuẩn quy mô lớn cho lý luận hợp lý về các tình huống xã hội. IQa xã hội chứa các câu hỏi trắc nghiệm để thăm dò trí thông minh cảm xúc và xã hội trong nhiều tình huống hàng ngày. Thông qua dịch vụ cộng đồng, các câu hỏi hợp lý cùng với câu trả lời đúng và sai về tương tác xã hội được thu thập, sử dụng một khuôn khổ mới giúp giảm thiểu các tạo tác văn phong trong các câu trả lời sai bằng cách yêu cầu nhân viên cung cấp câu trả lời đúng cho một câu hỏi khác nhưng có liên quan.
Kích thước tải xuống :
7.08 MiB
Kích thước tập dữ liệu :
8.22 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 33,410 |
'validation' | 1.954 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{sap-etal-2019-social,
title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
author = "Sap, Maarten and
Rashkin, Hannah and
Chen, Derek and
Le Bras, Ronan and
Choi, Yejin",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1454",
doi = "10.18653/v1/D19-1454",
pages = "4463--4473",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/squad1_1
Mô tả cấu hình : Đây là tập dữ liệu đọc hiểu bao gồm các câu hỏi do những người làm việc cộng đồng đặt ra trên một tập hợp các bài viết trên Wikipedia, trong đó câu trả lời cho mỗi câu hỏi là một đoạn văn bản từ đoạn đọc tương ứng.
Kích thước tải xuống :
80.62 MiB
Kích thước tập dữ liệu :
83.99 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 87,514 |
'validation' | 10.570 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{rajpurkar-etal-2016-squad,
title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
author = "Rajpurkar, Pranav and
Zhang, Jian and
Lopyrev, Konstantin and
Liang, Percy",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D16-1264",
doi = "10.18653/v1/D16-1264",
pages = "2383--2392",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/squad2
Mô tả cấu hình : Bộ dữ liệu này kết hợp bộ dữ liệu gốc Bộ dữ liệu trả lời câu hỏi Stanford (SQuAD) với các câu hỏi không thể trả lời được viết bởi những người làm việc trong cộng đồng để trông giống với những câu hỏi có thể trả lời được.
Kích thước tải xuống :
116.56 MiB
Kích thước tập dữ liệu :
121.43 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 130,149 |
'validation' | 11,873 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{rajpurkar-etal-2018-know,
title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
author = "Rajpurkar, Pranav and
Jia, Robin and
Liang, Percy",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = jul,
year = "2018",
address = "Melbourne, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P18-2124",
doi = "10.18653/v1/P18-2124",
pages = "784--789",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/winogrande_l
Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách lược đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước chính của quá trình xây dựng tập dữ liệu bao gồm (1) quy trình cung cấp dịch vụ cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm sai lệch có hệ thống bằng cách sử dụng thuật toán AfLite mới giúp khái quát hóa các liên kết từ mà con người có thể phát hiện thành các liên kết nhúng mà máy có thể phát hiện được. Bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước
l
.Kích thước tải xuống :
1.49 MiB
Kích thước tập dữ liệu :
1.83 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 10,234 |
'validation' | 1.267 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/winogrande_m
Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách lược đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước chính của quá trình xây dựng tập dữ liệu bao gồm (1) quy trình cung cấp dịch vụ cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm sai lệch có hệ thống bằng cách sử dụng thuật toán AfLite mới giúp khái quát hóa các liên kết từ mà con người có thể phát hiện thành các liên kết nhúng mà máy có thể phát hiện được. Bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước
m
.Kích thước tải xuống :
507.46 KiB
Kích thước tập dữ liệu :
623.15 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.558 |
'validation' | 1.267 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unity_qa/winogrande_s
Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách lược đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước chính của quá trình xây dựng tập dữ liệu bao gồm (1) quy trình cung cấp dịch vụ cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm sai lệch có hệ thống bằng cách sử dụng thuật toán AfLite mới giúp khái quát hóa các liên kết từ mà con người có thể phát hiện thành các liên kết nhúng mà máy có thể phát hiện được. Bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước
s
.Kích thước tải xuống :
479.24 KiB
Kích thước tập dữ liệu :
590.47 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.767 |
'train' | 640 |
'validation' | 1.267 |
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."