keo siêu dính

  • Mô tả :

SuperGLUE ( https://super.gluebenchmark.com/ ) là một điểm chuẩn mới được tạo kiểu sau GLUE với một tập hợp mới gồm các tác vụ hiểu ngôn ngữ khó hơn, tài nguyên được cải thiện và bảng xếp hạng công khai mới.

super_glue / boolq (cấu hình mặc định)

  • Mô tả cấu hình : BoolQ (Câu hỏi Boolean, Clark và cộng sự, 2019a) là một nhiệm vụ QA trong đó mỗi ví dụ bao gồm một đoạn văn ngắn và một câu hỏi có / không về đoạn văn đó. Các câu hỏi được cung cấp một cách ẩn danh và không được yêu cầu bởi những người sử dụng công cụ tìm kiếm Google, và sau đó được ghép nối với một đoạn từ một bài viết trên Wikipedia có chứa câu trả lời. Theo sát nguyên tác, chúng tôi đánh giá chính xác.

  • Trang chủ : https://github.com/google-research-datasets/boolean-questions

  • Kích thước tải xuống : 3.93 MiB

  • Tách :

Tách ra Các ví dụ
'test' 3.245
'train' 9.427
'validation' 3.270
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
đoạn văn Chữ tf.string
câu hỏi Chữ tf.string
  • Trích dẫn :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • Mô tả cấu hình : Ngân hàng cam kết (De Marneffe và cộng sự, 2019) là một tập hợp các văn bản ngắn trong đó ít nhất một câu chứa một mệnh đề được nhúng. Mỗi mệnh đề được nhúng này đều được chú thích với mức độ mà chúng tôi mong đợi rằng người viết văn bản cam kết về tính trung thực của mệnh đề. Nhiệm vụ kết quả được đóng khung dưới dạng yêu cầu văn bản ba lớp dựa trên các ví dụ được rút ra từ Wall Street Journal, tiểu thuyết từ British National Corpus và Switchboard. Mỗi ví dụ bao gồm một tiền đề có chứa một mệnh đề nhúng và giả thuyết tương ứng là phần chiết xuất của mệnh đề đó. Chúng tôi sử dụng một tập hợp con dữ liệu có thỏa thuận giữa các chú thích trên 0,85. Dữ liệu không cân bằng (tương đối ít ví dụ trung tính hơn), vì vậy chúng tôi đánh giá bằng cách sử dụng độ chính xác và F1, trong đó đối với F1 nhiều lớp, chúng tôi tính giá trị trung bình không trọng số của F1 trên mỗi lớp.

  • Trang chủ : https://github.com/mcdm/CommitmentBank

  • Kích thước tải xuống : 73.71 KiB

  • Tách :

Tách ra Các ví dụ
'test' 250
'train' 250
'validation' 56
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
giả thuyết Chữ tf.string
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
tiền đề Chữ tf.string
  • Trích dẫn :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / copa

  • Mô tả cấu hình : Tập dữ liệu Sự lựa chọn Thay thế Hợp lý (COPA, Roemmele và cộng sự, 2011) là một nhiệm vụ suy luận nhân quả, trong đó một hệ thống được đưa ra một câu tiền đề và hai lựa chọn thay thế khả thi. Hệ thống phải chọn phương án thay thế có mối quan hệ nhân quả hợp lý hơn với tiền đề. Phương pháp được sử dụng để xây dựng các phương án đảm bảo rằng nhiệm vụ yêu cầu lý luận nhân quả để giải quyết. Các ví dụ hoặc giải quyết các nguyên nhân có thể thay thế hoặc các tác động có thể thay thế của câu tiền đề, kèm theo một câu hỏi đơn giản phân biệt giữa hai loại ví dụ cho mô hình. Tất cả các ví dụ đều được làm thủ công và tập trung vào các chủ đề từ các blog trực tuyến và một bách khoa toàn thư liên quan đến nhiếp ảnh. Theo khuyến nghị của các tác giả, chúng tôi đánh giá bằng cách sử dụng độ chính xác.

  • Trang chủ : http://people.ict.usc.edu/~gordon/copa.html

  • Kích thước tải xuống : 42.96 KiB

  • Tách :

Tách ra Các ví dụ
'test' 500
'train' 400
'validation' 100
  • Cấu trúc tính năng :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
lựa chọn1 Chữ tf.string
lựa chọn2 Chữ tf.string
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
tiền đề Chữ tf.string
câu hỏi Chữ tf.string
  • Trích dẫn :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / multirc

  • Mô tả cấu hình : Tập dữ liệu Đọc hiểu nhiều câu (MultiRC, Khashabi và cộng sự, 2018) là một nhiệm vụ trả lời câu hỏi đúng / sai. Mỗi ví dụ bao gồm một đoạn ngữ cảnh, một câu hỏi về đoạn văn đó và danh sách các câu trả lời có thể có cho câu hỏi đó phải được gắn nhãn là đúng hoặc sai. Trả lời câu hỏi (QA) là một vấn đề phổ biến với nhiều bộ dữ liệu. Chúng tôi sử dụng MultiRC vì một số đặc tính mong muốn: (i) mỗi câu hỏi có thể có nhiều câu trả lời đúng có thể xảy ra, vì vậy mỗi cặp câu hỏi-câu trả lời phải được đánh giá độc lập với các cặp khác, (ii) các câu hỏi được thiết kế sao cho việc trả lời từng câu hỏi yêu cầu rút ra các dữ kiện từ nhiều câu ngữ cảnh và (iii) định dạng cặp câu hỏi-câu trả lời khớp chặt chẽ hơn với API của các tác vụ SuperGLUE khác so với QA khai thác dựa trên nhịp. Các đoạn văn được rút ra từ bảy lĩnh vực bao gồm tin tức, tiểu thuyết và văn bản lịch sử.

  • Trang chủ : https://cogcomp.org/multirc/

  • Kích thước tải xuống : 1.06 MiB

  • Tách :

Tách ra Các ví dụ
'test' 9,693
'train' 27.243
'validation' 4.848
  • Cấu trúc tính năng :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
câu trả lời Chữ tf.string
idx Các tính năng
idx / answer Tensor tf.int32
idx / đoạn văn Tensor tf.int32
idx / câu hỏi Tensor tf.int32
nhãn mác ClassLabel tf.int64
đoạn văn Chữ tf.string
câu hỏi Chữ tf.string
  • Trích dẫn :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / record

  • Mô tả cấu hình : (Đọc hiểu với Bộ dữ liệu lý luận Commonsense, Zhang và cộng sự, 2018) là một nhiệm vụ QA có nhiều lựa chọn. Mỗi ví dụ bao gồm một tin bài và một câu hỏi kiểu Cloze về bài báo trong đó một thực thể bị che đi. Hệ thống phải dự đoán thực thể bị che khuất từ ​​một danh sách nhất định các thực thể có thể có trong đoạn văn được cung cấp, trong đó cùng một thực thể có thể được thể hiện bằng nhiều dạng bề mặt khác nhau, tất cả đều được coi là đúng. Các bài báo được lấy từ CNN và Daily Mail. Tiếp theo công việc ban đầu, chúng tôi đánh giá với tối đa (trên tất cả các đề cập) F1 cấp mã thông báo và đối sánh chính xác (EM).

  • Trang chủ : https://sheng-z.github.io/ReCoRD-explorer/

  • Kích thước tải xuống : 49.36 MiB

  • Tách :

Tách ra Các ví dụ
'test' 10.000
'train' 100.730
'validation' 10.000
  • Cấu trúc tính năng :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
câu trả lời Trình tự (Văn bản) (Không có,) tf.string
thực thể Trình tự (Văn bản) (Không có,) tf.string
idx Các tính năng
idx / đoạn văn Tensor tf.int32
idx / truy vấn Tensor tf.int32
đoạn văn Chữ tf.string
truy vấn Chữ tf.string
  • Trích dẫn :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • Mô tả cấu hình : Bộ dữ liệu Nhận dạng Văn bản tham gia (RTE) đến từ một loạt các cuộc thi hàng năm về cấu hình văn bản, vấn đề dự đoán liệu một câu tiền đề nhất định có liên quan đến một câu giả thuyết nhất định (còn được gọi là suy luận ngôn ngữ tự nhiên, NLI) hay không. RTE trước đây đã được đưa vào GLUE và chúng tôi sử dụng dữ liệu và định dạng tương tự như trước đây: Chúng tôi hợp nhất dữ liệu từ RTE1 (Dagan và cộng sự, 2006), RTE2 (Bar Haim và cộng sự, 2006), RTE3 (Giampiccolo và cộng sự, 2007), và RTE5 (Bentivogli và cộng sự, 2009). Tất cả các tập dữ liệu được kết hợp và chuyển đổi thành phân loại hai lớp: entailment và not_entailment. Trong số tất cả các tác vụ GLUE, RTE là một trong những tác vụ được hưởng lợi từ việc học chuyển giao nhiều nhất, chuyển từ hiệu suất gần như ngẫu nhiên (~ 56%) tại thời điểm ra mắt GLUE lên độ chính xác 85% (Liu và cộng sự, 2019c) tại thời gian viết. Tuy nhiên, với khoảng cách tám điểm về hiệu suất của con người, nhiệm vụ vẫn chưa được máy móc giải quyết và chúng tôi kỳ vọng khoảng cách còn lại sẽ khó thu hẹp.

  • Trang chủ : https://aclweb.org/aclwiki/Recogizing_Textual_Entailment

  • Kích thước tải xuống : 733.32 KiB

  • Tách :

Tách ra Các ví dụ
'test' 3.000
'train' 2.490
'validation' 277
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
giả thuyết Chữ tf.string
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
tiền đề Chữ tf.string
  • Trích dẫn :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • Mô tả cấu hình : Tập dữ liệu Word-in-Context (WiC, Pilehvar và Camacho-Collados, 2019) hỗ trợ nhiệm vụ phân định nghĩa từ được thực hiện dưới dạng phân loại nhị phân trên các cặp câu. Với hai câu và một từ đa nghĩa (không rõ nghĩa) xuất hiện trong cả hai câu, nhiệm vụ là xác định xem từ đó có được sử dụng với cùng một nghĩa trong cả hai câu hay không. Các câu được rút ra từ WordNet (Miller, 1995), VerbNet (Schuler, 2005) và Wiktionary. Chúng tôi theo dõi công việc gốc và đánh giá bằng cách sử dụng độ chính xác.

  • Trang chủ : https://pilehvar.github.io/wic/

  • Kích thước tải xuống : 386.93 KiB

  • Tách :

Tách ra Các ví dụ
'test' 1.400
'train' 5,428
'validation' 638
  • Cấu trúc tính năng :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
end1 Tensor tf.int32
end2 Tensor tf.int32
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
câu1 Chữ tf.string
câu2 Chữ tf.string
start1 Tensor tf.int32
start2 Tensor tf.int32
từ Chữ tf.string
  • Trích dẫn :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • Mô tả cấu hình : Thử thách lược đồ Winograd (WSC, Levesque et al., 2012) là một nhiệm vụ đọc hiểu trong đó hệ thống phải đọc một câu với một đại từ và chọn tham chiếu của đại từ đó từ một danh sách các lựa chọn. Do khó khăn của nhiệm vụ này và không gian vẫn còn trống, chúng tôi đã đưa WSC vào SuperGLUE và đúc lại tập dữ liệu thành dạng lõi của nó. Nhiệm vụ được thực hiện như một bài toán phân loại nhị phân, trái ngược với N-nhiều lựa chọn, nhằm cô lập khả năng của mô hình để hiểu các liên kết lõi trong một câu trái ngược với nhiều chiến lược khác có thể hoạt động trong các điều kiện nhiều lựa chọn. Với ý nghĩ đó, chúng tôi tạo sự phân tách với 65% lớp đa số phủ định trong tập xác thực, phản ánh sự phân bố của tập thử nghiệm ẩn và 52% lớp phủ định trong tập huấn luyện. Các ví dụ về đào tạo và xác nhận được rút ra từ tập dữ liệu gốc của Lược đồ Winograd (Levesque và cộng sự, 2012), cũng như những ví dụ được phân phối bởi tổ chức liên kết Commonsense Reasoning. Các ví dụ thử nghiệm có nguồn gốc từ các cuốn sách viễn tưởng và đã được chia sẻ với chúng tôi bởi các tác giả của tập dữ liệu gốc. Trước đây, một phiên bản của WSC recast dưới dạng NLI được đưa vào GLUE, được gọi là WNLI. Không có tiến bộ đáng kể nào được thực hiện trên WNLI, với nhiều người gửi chọn chỉ gửi dự đoán của lớp đa số. WNLI được thực hiện đặc biệt khó khăn do sự phân chia giữa các nhà phát triển / nhà phát triển đối địch: Các câu chuẩn xác xuất hiện trong tập huấn luyện đôi khi xuất hiện trong tập phát triển với một giả thuyết khác và một nhãn bị lật. Nếu một hệ thống ghi nhớ tập huấn luyện mà không khái quát hóa một cách có ý nghĩa, điều này rất dễ xảy ra do kích thước nhỏ của tập huấn luyện, nó có thể hoạt động kém hơn nhiều so với cơ hội trên tập phát triển. Chúng tôi loại bỏ thiết kế đối nghịch này trong phiên bản SuperGLUE của WSC bằng cách đảm bảo rằng không có câu nào được chia sẻ giữa các bộ đào tạo, xác nhận và kiểm tra.

Tuy nhiên, bộ xác thực và bộ kiểm tra đến từ các miền khác nhau, với bộ xác thực bao gồm các ví dụ không rõ ràng, vì vậy việc thay đổi một từ cụm từ không phải danh từ sẽ thay đổi các phụ thuộc chính trong câu. Bộ thử nghiệm chỉ bao gồm các ví dụ đơn giản hơn, với số lượng cụm danh từ cao (và do đó có nhiều lựa chọn hơn cho mô hình), nhưng ít hoặc không có sự mơ hồ.

Tách ra Các ví dụ
'test' 146
'train' 554
'validation' 104
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
span1_index Tensor tf.int32
span1_text Chữ tf.string
span2_index Tensor tf.int32
span2_text Chữ tf.string
chữ Chữ tf.string
  • Trích dẫn :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • Mô tả cấu hình : Thử thách lược đồ Winograd (WSC, Levesque et al., 2012) là một nhiệm vụ đọc hiểu trong đó hệ thống phải đọc một câu với một đại từ và chọn tham chiếu của đại từ đó từ một danh sách các lựa chọn. Do khó khăn của nhiệm vụ này và không gian vẫn còn trống, chúng tôi đã đưa WSC vào SuperGLUE và đúc lại tập dữ liệu thành dạng lõi của nó. Nhiệm vụ được thực hiện như một bài toán phân loại nhị phân, trái ngược với N-nhiều lựa chọn, nhằm cô lập khả năng của mô hình để hiểu các liên kết lõi trong một câu trái ngược với nhiều chiến lược khác có thể hoạt động trong các điều kiện nhiều lựa chọn. Với ý nghĩ đó, chúng tôi tạo sự phân tách với 65% lớp đa số phủ định trong tập xác thực, phản ánh sự phân bố của tập thử nghiệm ẩn và 52% lớp phủ định trong tập huấn luyện. Các ví dụ về đào tạo và xác nhận được rút ra từ tập dữ liệu gốc của Lược đồ Winograd (Levesque và cộng sự, 2012), cũng như những ví dụ được phân phối bởi tổ chức liên kết Commonsense Reasoning. Các ví dụ thử nghiệm có nguồn gốc từ các cuốn sách viễn tưởng và đã được chia sẻ với chúng tôi bởi các tác giả của tập dữ liệu gốc. Trước đây, một phiên bản của WSC recast dưới dạng NLI được đưa vào GLUE, được gọi là WNLI. Không có tiến bộ đáng kể nào được thực hiện trên WNLI, với nhiều người gửi chọn chỉ gửi dự đoán của lớp đa số. WNLI được thực hiện đặc biệt khó khăn do sự phân chia giữa các nhà phát triển / nhà phát triển đối địch: Các câu chuẩn xác xuất hiện trong tập huấn luyện đôi khi xuất hiện trong tập phát triển với một giả thuyết khác và một nhãn bị lật. Nếu một hệ thống ghi nhớ tập huấn luyện mà không khái quát hóa một cách có ý nghĩa, điều này rất dễ xảy ra do kích thước nhỏ của tập huấn luyện, nó có thể hoạt động kém hơn nhiều so với cơ hội trên tập phát triển. Chúng tôi loại bỏ thiết kế đối nghịch này trong phiên bản SuperGLUE của WSC bằng cách đảm bảo rằng không có câu nào được chia sẻ giữa các bộ đào tạo, xác nhận và kiểm tra.

Tuy nhiên, bộ xác thực và bộ kiểm tra đến từ các miền khác nhau, với bộ xác thực bao gồm các ví dụ không rõ ràng, vì vậy việc thay đổi một từ cụm từ không phải danh từ sẽ thay đổi các phụ thuộc chính trong câu. Bộ thử nghiệm chỉ bao gồm các ví dụ đơn giản hơn, với số lượng cụm danh từ cao (và do đó có nhiều lựa chọn hơn cho mô hình), nhưng ít hoặc không có sự mơ hồ.

Phiên bản này khắc phục sự cố trong đó các khoảng không thực sự là chuỗi con của văn bản.

Tách ra Các ví dụ
'test' 146
'train' 554
'validation' 104
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
span1_index Tensor tf.int32
span1_text Chữ tf.string
span2_index Tensor tf.int32
span2_text Chữ tf.string
chữ Chữ tf.string
  • Trích dẫn :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • Mô tả cấu hình : Tập dữ liệu chẩn đoán, do chuyên gia xây dựng, tự động kiểm tra các mô hình cho nhiều loại kiến ​​thức ngôn ngữ, thông dụng và thế giới. Mỗi ví dụ trong chẩn đoán có phạm vi rộng này là một cặp câu được gắn nhãn với quan hệ liên kết ba chiều (liên kết, trung tính hoặc mâu thuẫn) và được gắn nhãn biểu thị các hiện tượng đặc trưng cho mối quan hệ giữa hai câu. Nội dung gửi đến bảng xếp hạng GLUE được yêu cầu bao gồm các dự đoán từ trình phân loại MultiNLI của bài nộp trên tập dữ liệu chẩn đoán và các phân tích về kết quả được hiển thị cùng với bảng xếp hạng chính. Vì nhiệm vụ chẩn đoán trên phạm vi rộng này tỏ ra khó khăn đối với các mẫu máy hàng đầu, chúng tôi giữ lại nó trong SuperGLUE. Tuy nhiên, vì MultiNLI không phải là một phần của SuperGLUE, chúng tôi thu gọn mâu thuẫn và trung tính thành một nhãn not_entailment duy nhất và yêu cầu gửi đi bao gồm các dự đoán trên tập hợp kết quả từ mô hình được sử dụng cho tác vụ RTE.

  • Trang chủ : https://gluebenchmark.com/diagnostics

  • Kích thước tải xuống : 33.15 KiB

  • Tách :

Tách ra Các ví dụ
'test' 1.104
  • Cấu trúc tính năng :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
câu1 Chữ tf.string
câu2 Chữ tf.string
  • Trích dẫn :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • Mô tả cấu hình : Người chuyển giới được thiết kế để đo lường sự lệch lạc về giới tính trong các hệ thống giải quyết vấn đề cơ bản. Chúng tôi sử dụng phiên bản Bộ sưu tập suy luận ngôn ngữ tự nhiên đa dạng (DNC; Poliak và cộng sự, 2018) sử dụng phiên bản Người chuyển giới thành một nhiệm vụ yêu cầu văn bản. Mỗi ví dụ bao gồm một câu tiền đề với một đại từ giống đực hoặc giống cái và một giả thuyết đưa ra một tiền đề có thể có của đại từ đó. Ví dụ xảy ra trong các cặp tối thiểu, trong đó sự khác biệt duy nhất giữa một ví dụ và cặp của nó là giới tính của đại từ trong tiền đề. Hiệu suất trên Người chuyển giới được đo bằng cả độ chính xác và điểm số bình đẳng giới: tỷ lệ phần trăm các cặp tối thiểu có dự đoán giống nhau. Chúng tôi lưu ý rằng một hệ thống có thể đạt được điểm số bình đẳng giới hoàn hảo bằng cách đoán cùng một lớp cho tất cả các ví dụ, do đó, điểm số bình đẳng giới tính cao là vô nghĩa trừ khi đi kèm với độ chính xác cao. Là một thử nghiệm chẩn đoán về sự lệch lạc giới tính, chúng tôi xem các lược đồ có giá trị dự đoán dương tính cao và giá trị dự đoán âm tính thấp; nghĩa là, họ có thể chứng minh sự hiện diện của định kiến ​​giới trong một hệ thống, nhưng không chứng minh được sự vắng mặt của nó.

  • Trang chủ : https://github.com/rudinger/winouality-schemas

  • Kích thước tải xuống : 10.17 KiB

  • Tách :

Tách ra Các ví dụ
'test' 356
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
giả thuyết Chữ tf.string
idx Tensor tf.int32
nhãn mác ClassLabel tf.int64
tiền đề Chữ tf.string
  • Trích dẫn :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.