- Mô tả :
Điểm chuẩn UnifiedQA bao gồm 20 bộ dữ liệu trả lời câu hỏi chính (QA) (mỗi bộ có thể có nhiều phiên bản) nhắm mục tiêu các định dạng khác nhau cũng như các hiện tượng ngôn ngữ phức tạp khác nhau. Các bộ dữ liệu này được nhóm thành một số định dạng / danh mục, bao gồm: QA khai thác, QA trừu tượng, QA nhiều lựa chọn và QA có / không. Ngoài ra, bộ tương phản được sử dụng cho một số tập dữ liệu (được biểu thị bằng " bộ tương phản"). Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc. Đối với một số bộ dữ liệu không đi kèm với các đoạn bằng chứng, hai biến thể được bao gồm: một biến thể trong đó bộ dữ liệu được sử dụng nguyên trạng và một biến thể khác sử dụng các đoạn văn được tìm nạp thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung, được biểu thị bằng thẻ "_ir".
Thông tin chi tiết có thể tham khảo tại: https://github.com/allenai/unifiedqa
Trang chủ : https://github.com/allenai/unifiedqa
Mã nguồn :
tfds.text.unifiedqa.UnifiedQA
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Cấu trúc tính năng :
FeaturesDict({
'input': tf.string,
'output': tf.string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
đầu vào | Tensor | tf.string | ||
đầu ra | Tensor | tf.string |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Uni_qa / ai2_science_elementary (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong các bài đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi ở dạng trắc nghiệm 4 chiều và có thể có hoặc không bao gồm phần tử sơ đồ. Bộ này gồm các câu hỏi dùng cho các khối lớp tiểu học.
Kích thước tải xuống :
345.59 KiB
Kích thước tập dữ liệu:
390.02 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 542 |
'train' | 623 |
'validation' | 123 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / ai2_science_middle
Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong các bài đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi ở dạng trắc nghiệm 4 chiều và có thể có hoặc không bao gồm phần tử sơ đồ. Bộ này gồm các câu hỏi được sử dụng cho các cấp học trung học cơ sở.
Kích thước tải xuống :
428.41 KiB
Kích thước tập dữ liệu:
477.40 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 679 |
'train' | 605 |
'validation' | 125 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / ambigqa
Mô tả cấu hình : AmbigQA là một nhiệm vụ trả lời câu hỏi miền mở bao gồm việc tìm mọi câu trả lời hợp lý, sau đó viết lại câu hỏi cho từng câu hỏi để giải quyết sự mơ hồ.
Kích thước tải xuống :
2.27 MiB
Kích thước tập dữ liệu :
3.04 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 19.806 |
'validation' | 5.674 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{min-etal-2020-ambigqa,
title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
author = "Min, Sewon and
Michael, Julian and
Hajishirzi, Hannaneh and
Zettlemoyer, Luke",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.466",
doi = "10.18653/v1/2020.emnlp-main.466",
pages = "5783--5797",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_easy
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ".
Kích thước tải xuống :
1.24 MiB
Kích thước tập dữ liệu :
1.42 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_easy_dev
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ".
Kích thước tải xuống :
1.24 MiB
Kích thước tập dữ liệu :
1.42 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_easy_with_ir
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
7.00 MiB
Kích thước tập dữ liệu :
7.17 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_easy_with_ir_dev
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
7.00 MiB
Kích thước tập dữ liệu :
7.17 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_hard
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa".
Kích thước tải xuống :
758.03 KiB
Kích thước tập dữ liệu:
848.28 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_hard_dev
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa".
Kích thước tải xuống :
758.03 KiB
Kích thước tập dữ liệu:
848.28 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_hard_with_ir
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
3.53 MiB
Kích thước tập dữ liệu :
3.62 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / arc_hard_with_ir_dev
Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
3.53 MiB
Kích thước tập dữ liệu :
3.62 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / boolq
Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho các câu hỏi có / không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong những môi trường không được khuyến khích và không bị giới hạn. Mỗi ví dụ là một bộ ba của (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các nhiệm vụ suy luận ngôn ngữ tự nhiên hiện có.
Kích thước tải xuống :
7.77 MiB
Kích thước tập dữ liệu :
8.20 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 9.427 |
'validation' | 3.270 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / boolq_np
Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho các câu hỏi có / không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong những môi trường không được khuyến khích và không bị giới hạn. Mỗi ví dụ là một bộ ba của (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các nhiệm vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này bổ sung các nhiễu động tự nhiên cho phiên bản gốc.
Kích thước tải xuống :
10.80 MiB
Kích thước tập dữ liệu :
11.40 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 9,727 |
'validation' | 7,596 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{khashabi-etal-2020-bang,
title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
author = "Khashabi, Daniel and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.12",
doi = "10.18653/v1/2020.emnlp-main.12",
pages = "163--170",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / commonsenseqa
Mô tả cấu hình : CommonsenseQA là một tập dữ liệu trả lời câu hỏi trắc nghiệm mới, yêu cầu các loại kiến thức chung khác nhau để dự đoán các câu trả lời đúng. Nó chứa các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây mất tập trung.
Kích thước tải xuống :
1.79 MiB
Kích thước tập dữ liệu :
2.19 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.140 |
'train' | 9,741 |
'validation' | 1.221 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uniform_qa / commonsenseqa_test
Mô tả cấu hình : CommonsenseQA là một tập dữ liệu trả lời câu hỏi trắc nghiệm mới, yêu cầu các loại kiến thức chung khác nhau để dự đoán các câu trả lời đúng. Nó chứa các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây mất tập trung.
Kích thước tải xuống :
1.79 MiB
Kích thước tập dữ liệu :
2.19 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.140 |
'train' | 9,741 |
'validation' | 1.221 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / Contra_sets_boolq
Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho các câu hỏi có / không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong những môi trường không được khuyến khích và không bị giới hạn. Mỗi ví dụ là một bộ ba của (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các nhiệm vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
438.51 KiB
Kích thước tập dữ liệu:
462.35 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 340 |
'validation' | 340 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / Contra_sets_drop
Mô tả cấu hình : DROP là một điểm chuẩn QA do nguồn lực cộng đồng tạo ra, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là nhiều vị trí đầu vào và thực hiện các hoạt động rời rạc đối với chúng (chẳng hạn như thêm, đếm hoặc sắp xếp). Các thao tác này đòi hỏi sự hiểu biết toàn diện hơn nhiều về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
2.20 MiB
Kích thước tập dữ liệu :
2.26 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 947 |
'validation' | 947 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / Contra_sets_quoref
Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng lập luận tham chiếu cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng cách này có chứa các câu hỏi đối với các đoạn văn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu cốt lõi trước khi chọn (các) khoảng cách thích hợp trong các đoạn văn để trả lời các câu hỏi. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
2.60 MiB
Kích thước tập dữ liệu :
2.65 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 700 |
'validation' | 700 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / Contra_sets_ropes
Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn nền có chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "động vật thụ phấn làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới sử dụng nền này và các câu hỏi yêu cầu lý luận về tác động của các mối quan hệ trong đoạn nền trong bối cảnh của tình huống. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.
Kích thước tải xuống :
1.97 MiB
Kích thước tập dữ liệu :
2.04 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 974 |
'validation' | 974 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / drop
Mô tả cấu hình : DROP là một điểm chuẩn QA do nguồn lực cộng đồng tạo ra, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là nhiều vị trí đầu vào và thực hiện các hoạt động rời rạc đối với chúng (chẳng hạn như thêm, đếm hoặc sắp xếp). Các thao tác này đòi hỏi sự hiểu biết toàn diện hơn nhiều về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó.
Kích thước tải xuống :
105.18 MiB
Kích thước tập dữ liệu:
108.16 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 77.399 |
'validation' | 9.536 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / mctest
Mô tả cấu hình : MCTest yêu cầu máy móc trả lời các câu hỏi trắc nghiệm đọc hiểu về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp độ cao của khả năng hiểu máy miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như suy luận nhân quả và hiểu thế giới, tuy nhiên, bằng hình thức trắc nghiệm, vẫn cung cấp một số liệu rõ ràng. Bằng cách hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận đối với những gì trẻ nhỏ có thể hiểu được, làm giảm kiến thức thế giới cần thiết cho nhiệm vụ.
Kích thước tải xuống :
2.14 MiB
Kích thước tập dữ liệu :
2.20 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 1.480 |
'validation' | 320 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / mctest_corcting_the_separator
Mô tả cấu hình : MCTest yêu cầu máy móc trả lời các câu hỏi trắc nghiệm đọc hiểu về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp độ cao của khả năng hiểu máy miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như suy luận nhân quả và hiểu thế giới, tuy nhiên, bằng hình thức trắc nghiệm, vẫn cung cấp một số liệu rõ ràng. Bằng cách hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận đối với những gì trẻ nhỏ có thể hiểu được, làm giảm kiến thức thế giới cần thiết cho nhiệm vụ.
Kích thước tải xuống :
2.15 MiB
Kích thước tập dữ liệu :
2.21 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 1.480 |
'validation' | 320 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / multirc
Mô tả cấu hình : MultiRC là một thử thách đọc hiểu, trong đó chỉ có thể trả lời các câu hỏi bằng cách tính đến thông tin từ nhiều câu. Các câu hỏi và câu trả lời cho thử thách này đã được trưng cầu và xác minh thông qua thử nghiệm nguồn lực cộng đồng 4 bước. Tập dữ liệu chứa các câu hỏi cho các đoạn văn trên 7 lĩnh vực khác nhau (khoa học tiểu học, tin tức, hướng dẫn du lịch, truyện viễn tưởng, v.v.) mang lại sự đa dạng về ngôn ngữ cho các văn bản và các từ ngữ câu hỏi.
Kích thước tải xuống :
897.09 KiB
Kích thước tập dữ liệu:
918.42 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 312 |
'validation' | 312 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{khashabi-etal-2018-looking,
title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
author = "Khashabi, Daniel and
Chaturvedi, Snigdha and
Roth, Michael and
Upadhyay, Shyam and
Roth, Dan",
booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
month = jun,
year = "2018",
address = "New Orleans, Louisiana",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N18-1023",
doi = "10.18653/v1/N18-1023",
pages = "252--262",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
thống nhất_qa / tường thuậtqa
Mô tả cấu hình : NarrativeQA là bộ dữ liệu tiếng Anh bao gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.
Kích thước tải xuống :
308.28 MiB
Kích thước tập dữ liệu:
311.22 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 21.114 |
'train' | 65.494 |
'validation' | 6.922 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
thống nhất_qa / tường thuậtqa_dev
Mô tả cấu hình : NarrativeQA là bộ dữ liệu tiếng Anh bao gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.
Kích thước tải xuống :
308.28 MiB
Kích thước tập dữ liệu:
311.22 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 21.114 |
'train' | 65.494 |
'validation' | 6.922 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / natural_questions
Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây.
Kích thước tải xuống :
6.95 MiB
Kích thước tập dữ liệu :
9.88 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 96.075 |
'validation' | 2.295 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / natural_questions_direct_ans
Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.
Kích thước tải xuống :
6.82 MiB
Kích thước tập dữ liệu :
10.19 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 6.468 |
'train' | 96.676 |
'validation' | 10.693 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / natural_questions_direct_ans_test
Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.
Kích thước tải xuống :
6.82 MiB
Kích thước tập dữ liệu :
10.19 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 6.468 |
'train' | 96.676 |
'validation' | 10.693 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / natural_questions_with_dpr_para
Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các đoạn văn bổ sung (có được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.
Kích thước tải xuống :
319.22 MiB
Kích thước tập dữ liệu:
322.91 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 96.676 |
'validation' | 10.693 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / natural_questions_with_dpr_para_test
Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các đoạn văn bổ sung (có được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.
Kích thước tải xuống :
306.94 MiB
Kích thước tập dữ liệu:
310.48 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 6.468 |
'train' | 96.676 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / newsqa
Mô tả cấu hình : NewsQA là một tập dữ liệu thử thách khả năng hiểu của máy gồm các cặp câu hỏi-câu trả lời do con người tạo ra. Cộng đồng cung cấp các câu hỏi và câu trả lời dựa trên một tập hợp các bài báo từ CNN, với các câu trả lời bao gồm các khoảng văn bản từ các bài báo tương ứng.
Kích thước tải xuống :
283.33 MiB
Kích thước tập dữ liệu:
285.94 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 75.882 |
'validation' | 4.309 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{trischler-etal-2017-newsqa,
title = "{N}ews{QA}: A Machine Comprehension Dataset",
author = "Trischler, Adam and
Wang, Tong and
Yuan, Xingdi and
Harris, Justin and
Sordoni, Alessandro and
Bachman, Philip and
Suleman, Kaheer",
booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
month = aug,
year = "2017",
address = "Vancouver, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W17-2623",
doi = "10.18653/v1/W17-2623",
pages = "191--200",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / openbookqa
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.
Kích thước tải xuống :
942.34 KiB
Kích thước tập dữ liệu :
1.11 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 500 |
'train' | 4.957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / openbookqa_dev
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.
Kích thước tải xuống :
942.34 KiB
Kích thước tập dữ liệu :
1.11 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 500 |
'train' | 4.957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / openbookqa_with_ir
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
6.08 MiB
Kích thước tập dữ liệu :
6.28 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 500 |
'train' | 4.957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / openbookqa_with_ir_dev
Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
6.08 MiB
Kích thước tập dữ liệu :
6.28 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 500 |
'train' | 4.957 |
'validation' | 500 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / physical_iqa
Mô tả cấu hình : Đây là một tập dữ liệu để đo điểm chuẩn tiến độ trong hiểu biết thông thường vật lý. Nhiệm vụ cơ bản là trả lời câu hỏi trắc nghiệm: đưa ra một câu hỏi q và hai giải pháp khả thi s1, s2, một mô hình hoặc một con người phải chọn một giải pháp thích hợp nhất, trong đó chính xác một giải pháp đúng. Tập dữ liệu tập trung vào các tình huống hàng ngày với ưu tiên cho các giải pháp không điển hình. Tập dữ liệu được lấy cảm hứng từ directables.com, cung cấp cho người dùng hướng dẫn về cách xây dựng, thủ công, nướng hoặc chế tác các đối tượng bằng vật liệu hàng ngày. Người chú thích được yêu cầu cung cấp các xáo trộn ngữ nghĩa hoặc các phương pháp tiếp cận thay thế tương tự về mặt cú pháp và chủ đề khác để đảm bảo kiến thức vật lý được nhắm mục tiêu. Tập dữ liệu được làm sạch hơn nữa các hiện vật cơ bản bằng cách sử dụng thuật toán AFLite.
Kích thước tải xuống :
6.01 MiB
Kích thước tập dữ liệu :
6.59 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 16.113 |
'validation' | 1.838 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{bisk2020piqa,
title={Piqa: Reasoning about physical commonsense in natural language},
author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={7432--7439},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / qasc
Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu.
Kích thước tải xuống :
1.75 MiB
Kích thước tập dữ liệu :
2.09 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / qasc_test
Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu.
Kích thước tải xuống :
1.75 MiB
Kích thước tập dữ liệu :
2.09 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / qasc_with_ir
Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
16.95 MiB
Kích thước tập dữ liệu :
17.30 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / qasc_with_ir_test
Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.
Kích thước tải xuống :
16.95 MiB
Kích thước tập dữ liệu :
17.30 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 920 |
'train' | 8.134 |
'validation' | 926 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / quoref
Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng lập luận tham chiếu cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng cách này có chứa các câu hỏi đối với các đoạn văn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu cốt lõi trước khi chọn (các) khoảng cách thích hợp trong các đoạn văn để trả lời các câu hỏi.
Kích thước tải xuống :
51.43 MiB
Kích thước tập dữ liệu:
52.29 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 22.265 |
'validation' | 2.768 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / race_string
Mô tả cấu hình : Race là một tập dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.
Kích thước tải xuống :
167.97 MiB
Kích thước tập dữ liệu:
171.23 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 4.934 |
'train' | 87.863 |
'validation' | 4.887 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / race_string_dev
Mô tả cấu hình : Race là một tập dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.
Kích thước tải xuống :
167.97 MiB
Kích thước tập dữ liệu:
171.23 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 4.934 |
'train' | 87.863 |
'validation' | 4.887 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / ropes
Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn nền có chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "động vật thụ phấn làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới sử dụng nền này và các câu hỏi yêu cầu lý luận về tác động của các mối quan hệ trong đoạn nền trong bối cảnh của tình huống.
Kích thước tải xuống :
12.91 MiB
Kích thước tập dữ liệu :
13.35 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 10,924 |
'validation' | 1.688 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / social_iqa
Mô tả cấu hình : Đây là một tiêu chuẩn quy mô lớn để lập luận thông thường về các tình huống xã hội. Social IQa chứa các câu hỏi trắc nghiệm để thăm dò trí thông minh cảm xúc và xã hội trong nhiều tình huống hàng ngày. Thông qua nguồn cung ứng cộng đồng, các câu hỏi thông thường cùng với các câu trả lời đúng và không chính xác về các tương tác xã hội được thu thập, sử dụng một khuôn khổ mới giúp giảm thiểu các lỗi tạo kiểu trong các câu trả lời không chính xác bằng cách yêu cầu nhân viên cung cấp câu trả lời đúng cho một câu hỏi khác nhưng có liên quan.
Kích thước tải xuống :
7.08 MiB
Kích thước tập dữ liệu :
8.22 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 33.410 |
'validation' | 1.954 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{sap-etal-2019-social,
title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
author = "Sap, Maarten and
Rashkin, Hannah and
Chen, Derek and
Le Bras, Ronan and
Choi, Yejin",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1454",
doi = "10.18653/v1/D19-1454",
pages = "4463--4473",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / Squad1_1
Mô tả cấu hình : Đây là tập dữ liệu đọc hiểu bao gồm các câu hỏi do cộng đồng đặt ra trên một tập hợp các bài viết Wikipedia, trong đó câu trả lời cho mỗi câu hỏi là một đoạn văn bản từ đoạn đọc tương ứng.
Kích thước tải xuống :
80.62 MiB
Kích thước tập dữ liệu:
83.99 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 87.514 |
'validation' | 10,570 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{rajpurkar-etal-2016-squad,
title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
author = "Rajpurkar, Pranav and
Zhang, Jian and
Lopyrev, Konstantin and
Liang, Percy",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D16-1264",
doi = "10.18653/v1/D16-1264",
pages = "2383--2392",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / Squad2
Mô tả cấu hình : Tập dữ liệu này kết hợp tập dữ liệu Ban đầu của Tập dữ liệu trả lời câu hỏi (SQuAD) của Stanford với các câu hỏi không thể trả lời được viết đối nghịch bởi những người làm việc trong cộng đồng để trông giống với những câu hỏi có thể trả lời được.
Kích thước tải xuống :
116.56 MiB
Kích thước tập dữ liệu:
121.43 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 130.149 |
'validation' | 11.873 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{rajpurkar-etal-2018-know,
title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
author = "Rajpurkar, Pranav and
Jia, Robin and
Liang, Percy",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = jul,
year = "2018",
address = "Melbourne, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P18-2124",
doi = "10.18653/v1/P18-2124",
pages = "784--789",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / winogrande_l
Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách giản đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước quan trọng của việc xây dựng tập dữ liệu bao gồm (1) quy trình nguồn cung ứng cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm độ chệch có hệ thống bằng cách sử dụng thuật toán AfLite mới tổng quát các liên kết từ có thể phát hiện của con người thành các liên kết nhúng có thể phát hiện bằng máy. Các bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước
l
.Kích thước tải xuống :
1.49 MiB
Kích thước tập dữ liệu :
1.83 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 10,234 |
'validation' | 1.267 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / winogrande_m
Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách giản đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước quan trọng của việc xây dựng tập dữ liệu bao gồm (1) quy trình nguồn cung ứng cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm độ chệch có hệ thống bằng cách sử dụng thuật toán AfLite mới tổng quát các liên kết từ có thể phát hiện của con người thành các liên kết nhúng có thể phát hiện bằng máy. Các bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước
m
.Kích thước tải xuống :
507.46 KiB
Kích thước tập dữ liệu:
623.15 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 2.558 |
'validation' | 1.267 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
Uni_qa / winogrande_s
Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách giản đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước quan trọng của việc xây dựng tập dữ liệu bao gồm (1) quy trình nguồn cung ứng cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm độ chệch có hệ thống bằng cách sử dụng thuật toán AfLite mới tổng quát các liên kết từ có thể phát hiện của con người thành các liên kết nhúng có thể phát hiện bằng máy. Các bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước
s
.Kích thước tải xuống :
479.24 KiB
Kích thước tập dữ liệu:
590.47 KiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.767 |
'train' | 640 |
'validation' | 1.267 |
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."