Uni_qa

  • Mô tả :

Điểm chuẩn UnifiedQA bao gồm 20 bộ dữ liệu trả lời câu hỏi chính (QA) (mỗi bộ có thể có nhiều phiên bản) nhắm mục tiêu các định dạng khác nhau cũng như các hiện tượng ngôn ngữ phức tạp khác nhau. Các bộ dữ liệu này được nhóm thành một số định dạng / danh mục, bao gồm: QA khai thác, QA trừu tượng, QA nhiều lựa chọn và QA có / không. Ngoài ra, bộ tương phản được sử dụng cho một số tập dữ liệu (được biểu thị bằng " bộ tương phản"). Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc. Đối với một số bộ dữ liệu không đi kèm với các đoạn bằng chứng, hai biến thể được bao gồm: một biến thể trong đó bộ dữ liệu được sử dụng nguyên trạng và một biến thể khác sử dụng các đoạn văn được tìm nạp thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung, được biểu thị bằng thẻ "_ir".

Thông tin chi tiết có thể tham khảo tại: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': tf.string,
    'output': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
đầu vào Tensor tf.string
đầu ra Tensor tf.string

Uni_qa / ai2_science_elementary (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong các bài đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi ở dạng trắc nghiệm 4 chiều và có thể có hoặc không bao gồm phần tử sơ đồ. Bộ này gồm các câu hỏi dùng cho các khối lớp tiểu học.

  • Kích thước tải xuống : 345.59 KiB

  • Kích thước tập dữ liệu: 390.02 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 542
'train' 623
'validation' 123
  • Trích dẫn :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / ai2_science_middle

  • Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong các bài đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi ở dạng trắc nghiệm 4 chiều và có thể có hoặc không bao gồm phần tử sơ đồ. Bộ này gồm các câu hỏi được sử dụng cho các cấp học trung học cơ sở.

  • Kích thước tải xuống : 428.41 KiB

  • Kích thước tập dữ liệu: 477.40 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 679
'train' 605
'validation' 125
  • Trích dẫn :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / ambigqa

  • Mô tả cấu hình : AmbigQA là một nhiệm vụ trả lời câu hỏi miền mở bao gồm việc tìm mọi câu trả lời hợp lý, sau đó viết lại câu hỏi cho từng câu hỏi để giải quyết sự mơ hồ.

  • Kích thước tải xuống : 2.27 MiB

  • Kích thước tập dữ liệu : 3.04 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 19.806
'validation' 5.674
  • Trích dẫn :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_easy

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ".

  • Kích thước tải xuống : 1.24 MiB

  • Kích thước tập dữ liệu : 1.42 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_easy_dev

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ".

  • Kích thước tải xuống : 1.24 MiB

  • Kích thước tập dữ liệu : 1.42 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_easy_with_ir

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 7.00 MiB

  • Kích thước tập dữ liệu : 7.17 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_easy_with_ir_dev

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 7.00 MiB

  • Kích thước tập dữ liệu : 7.17 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_hard

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa".

  • Kích thước tải xuống : 758.03 KiB

  • Kích thước tập dữ liệu: 848.28 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_hard_dev

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa".

  • Kích thước tải xuống : 758.03 KiB

  • Kích thước tập dữ liệu: 848.28 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_hard_with_ir

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 3.53 MiB

  • Kích thước tập dữ liệu : 3.62 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / arc_hard_with_ir_dev

  • Mô tả cấu hình : Tập dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Bộ này gồm những câu hỏi "hóc búa". Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 3.53 MiB

  • Kích thước tập dữ liệu : 3.62 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • Trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / boolq

  • Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho các câu hỏi có / không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong những môi trường không được khuyến khích và không bị giới hạn. Mỗi ví dụ là một bộ ba của (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các nhiệm vụ suy luận ngôn ngữ tự nhiên hiện có.

  • Kích thước tải xuống : 7.77 MiB

  • Kích thước tập dữ liệu : 8.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 9.427
'validation' 3.270
  • Trích dẫn :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / boolq_np

  • Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho các câu hỏi có / không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong những môi trường không được khuyến khích và không bị giới hạn. Mỗi ví dụ là một bộ ba của (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các nhiệm vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này bổ sung các nhiễu động tự nhiên cho phiên bản gốc.

  • Kích thước tải xuống : 10.80 MiB

  • Kích thước tập dữ liệu : 11.40 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 9,727
'validation' 7,596
  • Trích dẫn :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / commonsenseqa

  • Mô tả cấu hình : CommonsenseQA là một tập dữ liệu trả lời câu hỏi trắc nghiệm mới, yêu cầu các loại kiến ​​thức chung khác nhau để dự đoán các câu trả lời đúng. Nó chứa các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây mất tập trung.

  • Kích thước tải xuống : 1.79 MiB

  • Kích thước tập dữ liệu : 2.19 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.140
'train' 9,741
'validation' 1.221
  • Trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uniform_qa / commonsenseqa_test

  • Mô tả cấu hình : CommonsenseQA là một tập dữ liệu trả lời câu hỏi trắc nghiệm mới, yêu cầu các loại kiến ​​thức chung khác nhau để dự đoán các câu trả lời đúng. Nó chứa các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây mất tập trung.

  • Kích thước tải xuống : 1.79 MiB

  • Kích thước tập dữ liệu : 2.19 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.140
'train' 9,741
'validation' 1.221
  • Trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / Contra_sets_boolq

  • Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho các câu hỏi có / không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong những môi trường không được khuyến khích và không bị giới hạn. Mỗi ví dụ là một bộ ba của (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các nhiệm vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 438.51 KiB

  • Kích thước tập dữ liệu: 462.35 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 340
'validation' 340
  • Trích dẫn :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / Contra_sets_drop

  • Mô tả cấu hình : DROP là một điểm chuẩn QA do nguồn lực cộng đồng tạo ra, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là nhiều vị trí đầu vào và thực hiện các hoạt động rời rạc đối với chúng (chẳng hạn như thêm, đếm hoặc sắp xếp). Các thao tác này đòi hỏi sự hiểu biết toàn diện hơn nhiều về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 2.20 MiB

  • Kích thước tập dữ liệu : 2.26 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 947
'validation' 947
  • Trích dẫn :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / Contra_sets_quoref

  • Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng lập luận tham chiếu cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng cách này có chứa các câu hỏi đối với các đoạn văn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu cốt lõi trước khi chọn (các) khoảng cách thích hợp trong các đoạn văn để trả lời các câu hỏi. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 2.60 MiB

  • Kích thước tập dữ liệu : 2.65 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 700
'validation' 700
  • Trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / Contra_sets_ropes

  • Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến ​​thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn nền có chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "động vật thụ phấn làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới sử dụng nền này và các câu hỏi yêu cầu lý luận về tác động của các mối quan hệ trong đoạn nền trong bối cảnh của tình huống. Phiên bản này sử dụng các bộ tương phản. Các tập hợp đánh giá này là các nhiễu do chuyên gia tạo ra, sai lệch so với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 1.97 MiB

  • Kích thước tập dữ liệu : 2.04 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 974
'validation' 974
  • Trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / drop

  • Mô tả cấu hình : DROP là một điểm chuẩn QA do nguồn lực cộng đồng tạo ra, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là nhiều vị trí đầu vào và thực hiện các hoạt động rời rạc đối với chúng (chẳng hạn như thêm, đếm hoặc sắp xếp). Các thao tác này đòi hỏi sự hiểu biết toàn diện hơn nhiều về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó.

  • Kích thước tải xuống : 105.18 MiB

  • Kích thước tập dữ liệu: 108.16 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 77.399
'validation' 9.536
  • Trích dẫn :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / mctest

  • Mô tả cấu hình : MCTest yêu cầu máy móc trả lời các câu hỏi trắc nghiệm đọc hiểu về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp độ cao của khả năng hiểu máy miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như suy luận nhân quả và hiểu thế giới, tuy nhiên, bằng hình thức trắc nghiệm, vẫn cung cấp một số liệu rõ ràng. Bằng cách hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận đối với những gì trẻ nhỏ có thể hiểu được, làm giảm kiến ​​thức thế giới cần thiết cho nhiệm vụ.

  • Kích thước tải xuống : 2.14 MiB

  • Kích thước tập dữ liệu : 2.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 1.480
'validation' 320
  • Trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / mctest_corcting_the_separator

  • Mô tả cấu hình : MCTest yêu cầu máy móc trả lời các câu hỏi trắc nghiệm đọc hiểu về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp độ cao của khả năng hiểu máy miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như suy luận nhân quả và hiểu thế giới, tuy nhiên, bằng hình thức trắc nghiệm, vẫn cung cấp một số liệu rõ ràng. Bằng cách hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận đối với những gì trẻ nhỏ có thể hiểu được, làm giảm kiến ​​thức thế giới cần thiết cho nhiệm vụ.

  • Kích thước tải xuống : 2.15 MiB

  • Kích thước tập dữ liệu : 2.21 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 1.480
'validation' 320
  • Trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / multirc

  • Mô tả cấu hình : MultiRC là một thử thách đọc hiểu, trong đó chỉ có thể trả lời các câu hỏi bằng cách tính đến thông tin từ nhiều câu. Các câu hỏi và câu trả lời cho thử thách này đã được trưng cầu và xác minh thông qua thử nghiệm nguồn lực cộng đồng 4 bước. Tập dữ liệu chứa các câu hỏi cho các đoạn văn trên 7 lĩnh vực khác nhau (khoa học tiểu học, tin tức, hướng dẫn du lịch, truyện viễn tưởng, v.v.) mang lại sự đa dạng về ngôn ngữ cho các văn bản và các từ ngữ câu hỏi.

  • Kích thước tải xuống : 897.09 KiB

  • Kích thước tập dữ liệu: 918.42 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 312
'validation' 312
  • Trích dẫn :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

thống nhất_qa / tường thuậtqa

  • Mô tả cấu hình : NarrativeQA là bộ dữ liệu tiếng Anh bao gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.

  • Kích thước tải xuống : 308.28 MiB

  • Kích thước tập dữ liệu: 311.22 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 21.114
'train' 65.494
'validation' 6.922
  • Trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

thống nhất_qa / tường thuậtqa_dev

  • Mô tả cấu hình : NarrativeQA là bộ dữ liệu tiếng Anh bao gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.

  • Kích thước tải xuống : 308.28 MiB

  • Kích thước tập dữ liệu: 311.22 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 21.114
'train' 65.494
'validation' 6.922
  • Trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / natural_questions

  • Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây.

  • Kích thước tải xuống : 6.95 MiB

  • Kích thước tập dữ liệu : 9.88 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 96.075
'validation' 2.295
  • Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / natural_questions_direct_ans

  • Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.

  • Kích thước tải xuống : 6.82 MiB

  • Kích thước tập dữ liệu : 10.19 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 6.468
'train' 96.676
'validation' 10.693
  • Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / natural_questions_direct_ans_test

  • Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.

  • Kích thước tải xuống : 6.82 MiB

  • Kích thước tập dữ liệu : 10.19 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 6.468
'train' 96.676
'validation' 10.693
  • Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / natural_questions_with_dpr_para

  • Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các đoạn văn bổ sung (có được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.

  • Kích thước tải xuống : 319.22 MiB

  • Kích thước tập dữ liệu: 322.91 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 96.676
'validation' 10.693
  • Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / natural_questions_with_dpr_para_test

  • Mô tả cấu hình : Kho ngữ liệu NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn các bộ dữ liệu QA trước đây. Phiên bản này bao gồm các đoạn văn bổ sung (có được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.

  • Kích thước tải xuống : 306.94 MiB

  • Kích thước tập dữ liệu: 310.48 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 6.468
'train' 96.676
  • Trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / newsqa

  • Mô tả cấu hình : NewsQA là một tập dữ liệu thử thách khả năng hiểu của máy gồm các cặp câu hỏi-câu trả lời do con người tạo ra. Cộng đồng cung cấp các câu hỏi và câu trả lời dựa trên một tập hợp các bài báo từ CNN, với các câu trả lời bao gồm các khoảng văn bản từ các bài báo tương ứng.

  • Kích thước tải xuống : 283.33 MiB

  • Kích thước tập dữ liệu: 285.94 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 75.882
'validation' 4.309
  • Trích dẫn :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / openbookqa

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến ​​thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.

  • Kích thước tải xuống : 942.34 KiB

  • Kích thước tập dữ liệu : 1.11 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 500
'train' 4.957
'validation' 500
  • Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / openbookqa_dev

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến ​​thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.

  • Kích thước tải xuống : 942.34 KiB

  • Kích thước tập dữ liệu : 1.11 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 500
'train' 4.957
'validation' 500
  • Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / openbookqa_with_ir

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến ​​thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 6.08 MiB

  • Kích thước tập dữ liệu : 6.28 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 500
'train' 4.957
'validation' 500
  • Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / openbookqa_with_ir_dev

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, tìm hiểu sâu hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được diễn đạt. Cụ thể, nó chứa các câu hỏi yêu cầu suy luận nhiều bước, sử dụng kiến ​​thức phổ biến và thông dụng bổ sung, cũng như hiểu văn bản phong phú. OpenBookQA là một loại tập dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 6.08 MiB

  • Kích thước tập dữ liệu : 6.28 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 500
'train' 4.957
'validation' 500
  • Trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / physical_iqa

  • Mô tả cấu hình : Đây là một tập dữ liệu để đo điểm chuẩn tiến độ trong hiểu biết thông thường vật lý. Nhiệm vụ cơ bản là trả lời câu hỏi trắc nghiệm: đưa ra một câu hỏi q và hai giải pháp khả thi s1, s2, một mô hình hoặc một con người phải chọn một giải pháp thích hợp nhất, trong đó chính xác một giải pháp đúng. Tập dữ liệu tập trung vào các tình huống hàng ngày với ưu tiên cho các giải pháp không điển hình. Tập dữ liệu được lấy cảm hứng từ directables.com, cung cấp cho người dùng hướng dẫn về cách xây dựng, thủ công, nướng hoặc chế tác các đối tượng bằng vật liệu hàng ngày. Người chú thích được yêu cầu cung cấp các xáo trộn ngữ nghĩa hoặc các phương pháp tiếp cận thay thế tương tự về mặt cú pháp và chủ đề khác để đảm bảo kiến ​​thức vật lý được nhắm mục tiêu. Tập dữ liệu được làm sạch hơn nữa các hiện vật cơ bản bằng cách sử dụng thuật toán AFLite.

  • Kích thước tải xuống : 6.01 MiB

  • Kích thước tập dữ liệu : 6.59 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 16.113
'validation' 1.838
  • Trích dẫn :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / qasc

  • Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu.

  • Kích thước tải xuống : 1.75 MiB

  • Kích thước tập dữ liệu : 2.09 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 920
'train' 8.134
'validation' 926
  • Trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / qasc_test

  • Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu.

  • Kích thước tải xuống : 1.75 MiB

  • Kích thước tập dữ liệu : 2.09 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 920
'train' 8.134
'validation' 926
  • Trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / qasc_with_ir

  • Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 16.95 MiB

  • Kích thước tập dữ liệu : 17.30 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 920
'train' 8.134
'validation' 926
  • Trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / qasc_with_ir_test

  • Mô tả cấu hình : QASC là bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm 8 câu hỏi trắc nghiệm về khoa học cấp trường và đi kèm với kho ngữ liệu 17 triệu câu. Phiên bản này bao gồm các đoạn văn được lấy qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 16.95 MiB

  • Kích thước tập dữ liệu : 17.30 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 920
'train' 8.134
'validation' 926
  • Trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / quoref

  • Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng lập luận tham chiếu cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng cách này có chứa các câu hỏi đối với các đoạn văn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu cốt lõi trước khi chọn (các) khoảng cách thích hợp trong các đoạn văn để trả lời các câu hỏi.

  • Kích thước tải xuống : 51.43 MiB

  • Kích thước tập dữ liệu: 52.29 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 22.265
'validation' 2.768
  • Trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / race_string

  • Mô tả cấu hình : Race là một tập dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.

  • Kích thước tải xuống : 167.97 MiB

  • Kích thước tập dữ liệu: 171.23 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 4.934
'train' 87.863
'validation' 4.887
  • Trích dẫn :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / race_string_dev

  • Mô tả cấu hình : Race là một tập dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.

  • Kích thước tải xuống : 167.97 MiB

  • Kích thước tập dữ liệu: 171.23 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 4.934
'train' 87.863
'validation' 4.887
  • Trích dẫn :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / ropes

  • Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến ​​thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn nền có chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "động vật thụ phấn làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới sử dụng nền này và các câu hỏi yêu cầu lý luận về tác động của các mối quan hệ trong đoạn nền trong bối cảnh của tình huống.

  • Kích thước tải xuống : 12.91 MiB

  • Kích thước tập dữ liệu : 13.35 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 10,924
'validation' 1.688
  • Trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / social_iqa

  • Mô tả cấu hình : Đây là một tiêu chuẩn quy mô lớn để lập luận thông thường về các tình huống xã hội. Social IQa chứa các câu hỏi trắc nghiệm để thăm dò trí thông minh cảm xúc và xã hội trong nhiều tình huống hàng ngày. Thông qua nguồn cung ứng cộng đồng, các câu hỏi thông thường cùng với các câu trả lời đúng và không chính xác về các tương tác xã hội được thu thập, sử dụng một khuôn khổ mới giúp giảm thiểu các lỗi tạo kiểu trong các câu trả lời không chính xác bằng cách yêu cầu nhân viên cung cấp câu trả lời đúng cho một câu hỏi khác nhưng có liên quan.

  • Kích thước tải xuống : 7.08 MiB

  • Kích thước tập dữ liệu : 8.22 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 33.410
'validation' 1.954
  • Trích dẫn :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / Squad1_1

  • Mô tả cấu hình : Đây là tập dữ liệu đọc hiểu bao gồm các câu hỏi do cộng đồng đặt ra trên một tập hợp các bài viết Wikipedia, trong đó câu trả lời cho mỗi câu hỏi là một đoạn văn bản từ đoạn đọc tương ứng.

  • Kích thước tải xuống : 80.62 MiB

  • Kích thước tập dữ liệu: 83.99 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 87.514
'validation' 10,570
  • Trích dẫn :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / Squad2

  • Mô tả cấu hình : Tập dữ liệu này kết hợp tập dữ liệu Ban đầu của Tập dữ liệu trả lời câu hỏi (SQuAD) của Stanford với các câu hỏi không thể trả lời được viết đối nghịch bởi những người làm việc trong cộng đồng để trông giống với những câu hỏi có thể trả lời được.

  • Kích thước tải xuống : 116.56 MiB

  • Kích thước tập dữ liệu: 121.43 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 130.149
'validation' 11.873
  • Trích dẫn :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / winogrande_l

  • Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách giản đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước quan trọng của việc xây dựng tập dữ liệu bao gồm (1) quy trình nguồn cung ứng cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm độ chệch có hệ thống bằng cách sử dụng thuật toán AfLite mới tổng quát các liên kết từ có thể phát hiện của con người thành các liên kết nhúng có thể phát hiện bằng máy. Các bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước l .

  • Kích thước tải xuống : 1.49 MiB

  • Kích thước tập dữ liệu : 1.83 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 10,234
'validation' 1.267
  • Trích dẫn :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / winogrande_m

  • Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách giản đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước quan trọng của việc xây dựng tập dữ liệu bao gồm (1) quy trình nguồn cung ứng cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm độ chệch có hệ thống bằng cách sử dụng thuật toán AfLite mới tổng quát các liên kết từ có thể phát hiện của con người thành các liên kết nhúng có thể phát hiện bằng máy. Các bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước m .

  • Kích thước tải xuống : 507.46 KiB

  • Kích thước tập dữ liệu: 623.15 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 2.558
'validation' 1.267
  • Trích dẫn :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

Uni_qa / winogrande_s

  • Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách giản đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước quan trọng của việc xây dựng tập dữ liệu bao gồm (1) quy trình nguồn cung ứng cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm độ chệch có hệ thống bằng cách sử dụng thuật toán AfLite mới tổng quát các liên kết từ có thể phát hiện của con người thành các liên kết nhúng có thể phát hiện bằng máy. Các bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước s .

  • Kích thước tải xuống : 479.24 KiB

  • Kích thước tập dữ liệu: 590.47 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.767
'train' 640
'validation' 1.267
  • Trích dẫn :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."