keo siêu dính

  • Mô tả :

SuperGLUE ( https://super.gluebenchmark.com/ ) là một điểm chuẩn mới được tạo kiểu sau GLUE với một tập hợp mới các nhiệm vụ hiểu ngôn ngữ khó hơn, tài nguyên được cải thiện và bảng xếp hạng công khai mới.

super_glue/boolq (cấu hình mặc định)

  • Mô tả cấu hình : BoolQ (Boolean Questions, Clark et al., 2019a) là một nhiệm vụ QA trong đó mỗi ví dụ bao gồm một đoạn văn ngắn và một câu hỏi có/không về đoạn văn đó. Các câu hỏi được cung cấp ẩn danh và không được yêu cầu bởi người dùng của công cụ tìm kiếm Google, sau đó được ghép nối với một đoạn từ bài viết Wikipedia có chứa câu trả lời. Sau khi làm việc ban đầu, chúng tôi đánh giá với độ chính xác.

  • Trang chủ : https://github.com/google-research-datasets/boolean-questions

  • Kích thước tải xuống : 3.93 MiB

  • Kích thước tập dữ liệu : 10.75 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 3,245
'train' 9,427
'validation' 3.270
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
idx tenxơ int32
nhãn mác LớpNhãn int64
đoạn văn Chữ sợi dây
câu hỏi Chữ sợi dây
  • trích dẫn :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • Mô tả cấu hình : Ngân hàng Cam kết (De Marneffe et al., 2019) là một kho văn bản ngắn trong đó ít nhất một câu chứa mệnh đề nhúng. Mỗi mệnh đề nhúng này được chú thích với mức độ mà chúng tôi mong đợi rằng người viết văn bản cam kết với sự thật của mệnh đề. Nhiệm vụ kết quả được đóng khung dưới dạng văn bản đòi hỏi ba lớp dựa trên các ví dụ được rút ra từ Tạp chí Phố Wall, tiểu thuyết từ Tập đoàn Quốc gia Anh và Switchboard. Mỗi ví dụ bao gồm một tiền đề chứa mệnh đề nhúng và giả thuyết tương ứng là phần rút trích của mệnh đề đó. Chúng tôi sử dụng một tập hợp con dữ liệu có thỏa thuận giữa các chú thích trên 0,85. Dữ liệu không cân bằng (ví dụ trung lập tương đối ít hơn), vì vậy chúng tôi đánh giá bằng cách sử dụng độ chính xác và F1, trong đó đối với F1 nhiều lớp, chúng tôi tính trung bình không trọng số của F1 trên mỗi lớp.

  • Trang chủ : https://github.com/mcdm/CommitmentBank

  • Kích thước tải xuống : 73.71 KiB

  • Kích thước tập dữ liệu : 229.28 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 250
'train' 250
'validation' 56
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
giả thuyết Chữ sợi dây
idx tenxơ int32
nhãn mác LớpNhãn int64
tiền đề Chữ sợi dây
  • trích dẫn :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

  • Mô tả cấu hình : Tập dữ liệu Lựa chọn các phương án hợp lý (COPA, Roemmele et al., 2011) là một nhiệm vụ lý luận nhân quả trong đó một hệ thống được đưa ra một câu tiền đề và hai phương án khả thi. Hệ thống phải chọn phương án thay thế có mối quan hệ nhân quả hợp lý hơn với tiền đề. Phương pháp được sử dụng để xây dựng các phương án đảm bảo rằng nhiệm vụ yêu cầu lý luận nhân quả để giải quyết. Các ví dụ hoặc giải quyết các nguyên nhân có thể thay thế hoặc các tác động có thể thay thế của câu tiền đề, kèm theo một câu hỏi đơn giản phân biệt giữa hai loại ví dụ cho mô hình. Tất cả các ví dụ đều được làm thủ công và tập trung vào các chủ đề từ blog trực tuyến và bách khoa toàn thư liên quan đến nhiếp ảnh. Theo khuyến nghị của các tác giả, chúng tôi đánh giá bằng độ chính xác.

  • Trang chủ : http://people.ict.usc.edu/~gordon/copa.html

  • Kích thước tải xuống : 42.96 KiB

  • Kích thước tập dữ liệu : 196.00 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 500
'train' 400
'validation' 100
  • Cấu trúc tính năng :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
lựa chọn1 Chữ sợi dây
lựa chọn2 Chữ sợi dây
idx tenxơ int32
nhãn mác LớpNhãn int64
tiền đề Chữ sợi dây
câu hỏi Chữ sợi dây
  • trích dẫn :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • Mô tả cấu hình : Bộ dữ liệu Đọc hiểu nhiều câu (MultiRC, Khashabi et al., 2018) là một nhiệm vụ trả lời câu hỏi đúng/sai. Mỗi ví dụ bao gồm một đoạn ngữ cảnh, một câu hỏi về đoạn đó và một danh sách các câu trả lời có thể có cho câu hỏi đó phải được gắn nhãn là đúng hoặc sai. Trả lời câu hỏi (QA) là một vấn đề phổ biến với nhiều bộ dữ liệu. Chúng tôi sử dụng MultiRC vì một số thuộc tính mong muốn: (i) mỗi câu hỏi có thể có nhiều câu trả lời đúng, vì vậy mỗi cặp câu hỏi-câu trả lời phải được đánh giá độc lập với các cặp khác, (ii) các câu hỏi được thiết kế sao cho việc trả lời từng câu hỏi yêu cầu rút ra sự thật từ nhiều câu ngữ cảnh và (iii) định dạng cặp câu hỏi-câu trả lời khớp chặt chẽ hơn với API của các tác vụ SuperGLUE khác so với QA khai thác dựa trên nhịp. Các đoạn văn được rút ra từ bảy lĩnh vực bao gồm tin tức, tiểu thuyết và văn bản lịch sử.

  • Trang chủ : https://cogcomp.org/multirc/

  • Kích thước tải xuống : 1.06 MiB

  • Kích thước tập dữ liệu : 70.39 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 9,693
'train' 27,243
'validation' 4.848
  • Cấu trúc tính năng :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
câu trả lời Chữ sợi dây
idx Tính năngDict
idx/câu trả lời tenxơ int32
idx/đoạn văn tenxơ int32
idx/câu hỏi tenxơ int32
nhãn mác LớpNhãn int64
đoạn văn Chữ sợi dây
câu hỏi Chữ sợi dây
  • trích dẫn :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/bản ghi

  • Mô tả cấu hình : (Đọc hiểu với Commonsense Reasoning Dataset, Zhang et al., 2018) là một nhiệm vụ QA nhiều lựa chọn. Mỗi ví dụ bao gồm một bài báo và một câu hỏi kiểu Cloze về bài báo trong đó một thực thể bị che khuất. Hệ thống phải dự đoán thực thể bị che khuất từ ​​một danh sách nhất định các thực thể có thể có trong đoạn văn được cung cấp, trong đó cùng một thực thể có thể được thể hiện bằng nhiều dạng bề mặt khác nhau, tất cả đều được coi là chính xác. Bài viết được rút từ CNN và Daily Mail. Theo công việc ban đầu, chúng tôi đánh giá với F1 cấp độ mã thông báo tối đa (trên tất cả các lượt đề cập) và đối sánh chính xác (EM).

  • Trang chủ : https://sheng-z.github.io/ReCoRD-explorer/

  • Kích thước tải xuống : 49.36 MiB

  • Kích thước tập dữ liệu : 166.40 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 10.000
'train' 100,730
'validation' 10.000
  • Cấu trúc tính năng :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
câu trả lời Trình tự (Văn bản) (Không có,) sợi dây
thực thể Trình tự (Văn bản) (Không có,) sợi dây
idx Tính năngDict
idx/đoạn văn tenxơ int32
idx/truy vấn tenxơ int32
đoạn văn Chữ sợi dây
truy vấn Chữ sợi dây
  • trích dẫn :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • Mô tả cấu hình : Bộ dữ liệu Nhận dạng yêu cầu theo văn bản (RTE) đến từ một loạt các cuộc thi hàng năm về yêu cầu theo văn bản, vấn đề dự đoán liệu một câu tiền đề đã cho có dẫn đến một câu giả thuyết đã cho hay không (còn được gọi là suy luận ngôn ngữ tự nhiên, NLI). RTE trước đây đã được đưa vào GLUE và chúng tôi sử dụng cùng một dữ liệu và định dạng như trước đây: Chúng tôi hợp nhất dữ liệu từ RTE1 (Dagan và cộng sự, 2006), RTE2 (Bar Haim và cộng sự, 2006), RTE3 (Giampiccolo và cộng sự, 2007) và RTE5 (Bentivogli và cộng sự, 2009). Tất cả các bộ dữ liệu được kết hợp và chuyển đổi thành phân loại hai lớp: theo sau và không theo sau. Trong tất cả các nhiệm vụ của GLUE, RTE là một trong những nhiệm vụ được hưởng lợi nhiều nhất từ ​​việc học chuyển đổi, tăng từ hiệu suất gần như ngẫu nhiên (~56%) tại thời điểm GLUE ra mắt lên độ chính xác 85% (Liu và cộng sự, 2019c) tại thời điểm thời điểm viết bài. Tuy nhiên, với khoảng cách tám điểm đối với hiệu suất của con người, nhiệm vụ vẫn chưa được giải quyết bằng máy móc và chúng tôi cho rằng khoảng cách còn lại sẽ khó thu hẹp.

  • Trang chủ : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Kích thước tải xuống : 733.32 KiB

  • Kích thước tập dữ liệu : 2.15 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 3.000
'train' 2.490
'validation' 277
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
giả thuyết Chữ sợi dây
idx tenxơ int32
nhãn mác LớpNhãn int64
tiền đề Chữ sợi dây
  • trích dẫn :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Mô tả cấu hình : Bộ dữ liệu Word-in-Context (WiC, Pilehvar và Camacho-Collados, 2019) hỗ trợ tác vụ định hướng nghĩa của từ được thực hiện dưới dạng phân loại nhị phân trên các cặp câu. Đưa ra hai câu và một từ đa nghĩa (mơ hồ về nghĩa) xuất hiện trong cả hai câu, nhiệm vụ là xác định xem từ đó có được sử dụng với cùng một nghĩa trong cả hai câu hay không. Các câu được rút ra từ WordNet (Miller, 1995), VerbNet (Schuler, 2005) và Wiktionary. Chúng tôi theo dõi tác phẩm gốc và đánh giá bằng độ chính xác.

  • Trang chủ : https://pilehvar.github.io/wic/

  • Kích thước tải xuống : 386.93 KiB

  • Kích thước tập dữ liệu : 1.67 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.400
'train' 5,428
'validation' 638
  • Cấu trúc tính năng :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
kết thúc1 tenxơ int32
kết thúc2 tenxơ int32
idx tenxơ int32
nhãn mác LớpNhãn int64
câu1 Chữ sợi dây
câu2 Chữ sợi dây
bắt đầu1 tenxơ int32
bắt đầu2 tenxơ int32
từ Chữ sợi dây
  • trích dẫn :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Mô tả cấu hình : Thử thách lược đồ Winograd (WSC, Levesque et al., 2012) là một nhiệm vụ đọc hiểu trong đó hệ thống phải đọc một câu có đại từ và chọn tham chiếu của đại từ đó từ danh sách các lựa chọn. Do độ khó của nhiệm vụ này và khoảng trống vẫn còn, chúng tôi đã đưa WSC vào SuperGLUE và chuyển tập dữ liệu thành dạng tham chiếu chính của nó. Nhiệm vụ được coi là một vấn đề phân loại nhị phân, trái ngược với N-nhiều lựa chọn, để cô lập khả năng của mô hình trong việc hiểu các liên kết tham chiếu trong một câu trái ngược với nhiều chiến lược khác có thể áp dụng trong các điều kiện có nhiều lựa chọn. Với ý nghĩ đó, chúng tôi tạo một sự phân chia với 65% lớp đa số phủ định trong tập xác thực, phản ánh sự phân bố của tập kiểm tra ẩn và 52% lớp phủ định trong tập huấn luyện. Các ví dụ đào tạo và xác thực được rút ra từ bộ dữ liệu Lược đồ Winograd ban đầu (Levesque et al., 2012), cũng như các ví dụ được phân phối bởi tổ chức liên kết Commonsense Reasoning. Các ví dụ thử nghiệm được lấy từ sách viễn tưởng và đã được các tác giả của bộ dữ liệu gốc chia sẻ với chúng tôi. Trước đây, một phiên bản của WSC đã thay đổi thành NLI như được bao gồm trong GLUE, được gọi là WNLI. Không có tiến bộ đáng kể nào được thực hiện trên WNLI, với nhiều bài gửi chọn chỉ gửi các dự đoán của lớp đa số. WNLI đặc biệt khó khăn do sự phân chia đào tạo/nhà phát triển đối nghịch: Các câu tiền đề xuất hiện trong tập huấn luyện đôi khi xuất hiện trong tập phát triển với một giả thuyết khác và nhãn bị đảo lộn. Nếu một hệ thống ghi nhớ tập huấn luyện mà không khái quát hóa một cách có ý nghĩa, điều này rất dễ dàng do kích thước tập huấn luyện nhỏ, thì nó có thể hoạt động kém hơn nhiều so với cơ hội trên tập phát triển. Chúng tôi loại bỏ thiết kế bất lợi này trong phiên bản SuperGLUE của WSC bằng cách đảm bảo rằng không có câu nào được chia sẻ giữa tập huấn luyện, xác thực và kiểm tra.

Tuy nhiên, bộ kiểm tra và xác thực đến từ các miền khác nhau, với bộ xác thực bao gồm các ví dụ không rõ ràng, chẳng hạn như việc thay đổi một từ trong cụm từ không phải danh từ sẽ thay đổi các thành phần phụ thuộc tham chiếu chính trong câu. Bộ kiểm tra chỉ bao gồm các ví dụ đơn giản hơn, với số lượng cụm danh từ cao (và do đó có nhiều lựa chọn hơn cho mô hình), nhưng ít hoặc không có sự mơ hồ.

Tách ra ví dụ
'test' 146
'train' 554
'validation' 104
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
idx tenxơ int32
nhãn mác LớpNhãn int64
span1_index tenxơ int32
span1_text Chữ sợi dây
span2_index tenxơ int32
span2_text Chữ sợi dây
chữ Chữ sợi dây
  • trích dẫn :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • Mô tả cấu hình : Thử thách lược đồ Winograd (WSC, Levesque et al., 2012) là một nhiệm vụ đọc hiểu trong đó hệ thống phải đọc một câu có đại từ và chọn tham chiếu của đại từ đó từ danh sách các lựa chọn. Do độ khó của nhiệm vụ này và khoảng trống vẫn còn, chúng tôi đã đưa WSC vào SuperGLUE và chuyển tập dữ liệu thành dạng tham chiếu chính của nó. Nhiệm vụ được coi là một vấn đề phân loại nhị phân, trái ngược với N-nhiều lựa chọn, để cô lập khả năng của mô hình trong việc hiểu các liên kết tham chiếu trong một câu trái ngược với nhiều chiến lược khác có thể áp dụng trong các điều kiện có nhiều lựa chọn. Với ý nghĩ đó, chúng tôi tạo một sự phân chia với 65% lớp đa số phủ định trong tập xác thực, phản ánh sự phân bố của tập kiểm tra ẩn và 52% lớp phủ định trong tập huấn luyện. Các ví dụ đào tạo và xác thực được rút ra từ bộ dữ liệu Lược đồ Winograd ban đầu (Levesque et al., 2012), cũng như các ví dụ được phân phối bởi tổ chức liên kết Commonsense Reasoning. Các ví dụ thử nghiệm được lấy từ sách viễn tưởng và đã được các tác giả của bộ dữ liệu gốc chia sẻ với chúng tôi. Trước đây, một phiên bản của WSC đã thay đổi thành NLI như được bao gồm trong GLUE, được gọi là WNLI. Không có tiến bộ đáng kể nào được thực hiện trên WNLI, với nhiều bài gửi chọn chỉ gửi các dự đoán của lớp đa số. WNLI đặc biệt khó khăn do sự phân chia đào tạo/nhà phát triển đối nghịch: Các câu tiền đề xuất hiện trong tập huấn luyện đôi khi xuất hiện trong tập phát triển với một giả thuyết khác và nhãn bị đảo lộn. Nếu một hệ thống ghi nhớ tập huấn luyện mà không khái quát hóa một cách có ý nghĩa, điều này rất dễ dàng do kích thước tập huấn luyện nhỏ, thì nó có thể hoạt động kém hơn nhiều so với cơ hội trên tập phát triển. Chúng tôi loại bỏ thiết kế bất lợi này trong phiên bản SuperGLUE của WSC bằng cách đảm bảo rằng không có câu nào được chia sẻ giữa tập huấn luyện, xác thực và kiểm tra.

Tuy nhiên, bộ kiểm tra và xác thực đến từ các miền khác nhau, với bộ xác thực bao gồm các ví dụ không rõ ràng, chẳng hạn như việc thay đổi một từ trong cụm từ không phải danh từ sẽ thay đổi các thành phần phụ thuộc tham chiếu chính trong câu. Bộ kiểm tra chỉ bao gồm các ví dụ đơn giản hơn, với số lượng cụm danh từ cao (và do đó có nhiều lựa chọn hơn cho mô hình), nhưng ít hoặc không có sự mơ hồ.

Phiên bản này khắc phục sự cố trong đó các nhịp không thực sự là chuỗi con của văn bản.

Tách ra ví dụ
'test' 146
'train' 554
'validation' 104
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
idx tenxơ int32
nhãn mác LớpNhãn int64
span1_index tenxơ int32
span1_text Chữ sợi dây
span2_index tenxơ int32
span2_text Chữ sợi dây
chữ Chữ sợi dây
  • trích dẫn :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • Mô tả cấu hình : Một bộ dữ liệu chẩn đoán, do chuyên gia xây dựng, tự động kiểm tra các mô hình cho nhiều loại kiến ​​thức về ngôn ngữ, lẽ thường và thế giới. Mỗi ví dụ trong bài chẩn đoán bao quát này là một cặp câu được gắn nhãn quan hệ kéo theo ba chiều (quan hệ kéo theo, trung lập hoặc mâu thuẫn) và được gắn các nhãn chỉ hiện tượng đặc trưng cho mối quan hệ giữa hai câu. Nội dung gửi tới bảng xếp hạng GLUE được yêu cầu bao gồm các dự đoán từ bộ phân loại MultiNLI của nội dung gửi trên tập dữ liệu chẩn đoán và các phân tích kết quả được hiển thị cùng với bảng xếp hạng chính. Vì nhiệm vụ chẩn đoán phạm vi rộng này tỏ ra khó khăn đối với các kiểu máy hàng đầu nên chúng tôi giữ lại nó trong SuperGLUE. Tuy nhiên, vì MultiNLI không phải là một phần của SuperGLUE nên chúng tôi thu gọn mâu thuẫn và trung tính thành một nhãn not_entailment duy nhất và yêu cầu các nội dung gửi bao gồm các dự đoán về tập hợp kết quả từ mô hình được sử dụng cho nhiệm vụ RTE.

  • Trang chủ : https://gluebenchmark.com/diagnostics

  • Kích thước tải xuống : 33.15 KiB

  • Kích thước tập dữ liệu : 290.53 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.104
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
idx tenxơ int32
nhãn mác LớpNhãn int64
câu1 Chữ sợi dây
câu2 Chữ sợi dây
  • trích dẫn :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Mô tả cấu hình : Winogender được thiết kế để đo lường sự thiên vị giới tính trong các hệ thống phân giải tham chiếu. Chúng tôi sử dụng phiên bản Bộ sưu tập suy luận ngôn ngữ tự nhiên đa dạng (DNC; Poliak et al., 2018) sử dụng Winogender như một nhiệm vụ dẫn đến văn bản. Mỗi ví dụ bao gồm một câu tiền đề với một đại từ giống đực hoặc giống cái và một giả thuyết đưa ra một tiền đề có thể có của đại từ. Các ví dụ xảy ra theo cặp tối thiểu, trong đó sự khác biệt duy nhất giữa một ví dụ và cặp của nó là giới tính của đại từ trong tiền đề. Hiệu suất trên Winogender được đo lường bằng cả độ chính xác và điểm số bình đẳng giới: tỷ lệ phần trăm các cặp tối thiểu có dự đoán giống nhau. Chúng tôi lưu ý rằng một hệ thống có thể đạt được điểm tương đương giới hoàn hảo một cách tầm thường bằng cách đoán cùng một lớp cho tất cả các ví dụ, do đó, điểm tương đương giới cao là vô nghĩa trừ khi đi kèm với độ chính xác cao. Là một thử nghiệm chẩn đoán về xu hướng giới tính, chúng tôi xem các lược đồ có giá trị tiên đoán dương tính cao và giá trị tiên đoán âm tính thấp; nghĩa là, họ có thể chứng minh sự hiện diện của định kiến ​​giới trong một hệ thống, nhưng không chứng minh được sự vắng mặt của nó.

  • Trang chủ : https://github.com/rudinger/winogender-schemas

  • Kích thước tải xuống : 10.17 KiB

  • Kích thước tập dữ liệu : 69.75 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 356
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
giả thuyết Chữ sợi dây
idx tenxơ int32
nhãn mác LớpNhãn int64
tiền đề Chữ sợi dây
  • trích dẫn :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.