супер клей

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) — это новый тест, стилизованный под GLUE, с новым набором более сложных задач на понимание языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

super_glue/boolq (конфигурация по умолчанию)

  • Описание конфигурации : BoolQ (Boolean Questions, Clark et al., 2019a) — это задача контроля качества, где каждый пример состоит из короткого отрывка и вопроса «да/нет» о отрывке. Вопросы предоставляются анонимно и по собственной инициативе пользователями поисковой системы Google, а затем сопровождаются абзацем из статьи в Википедии, содержащей ответ. Следуя оригинальной работе, мы оцениваем с точностью.

  • Домашняя страница : https://github.com/google-research-datasets/boolean-questions

  • Размер загрузки : 3.93 MiB

  • Сплиты :

Расколоть Примеры
'test' 3245
'train' 9427
'validation' 3270
  • Структура функции :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
IDX Тензор tf.int32
этикетка Метка класса tf.int64
проход Текст tf.string
вопрос Текст tf.string
  • Цитата :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • Описание конфига : CommitmentBank (De Marneffe et al., 2019) — это корпус коротких текстов, в котором хотя бы одно предложение содержит встроенную оговорку. Каждое из этих встроенных предложений аннотировано в той степени, в которой мы ожидаем, что человек, написавший текст, привержен истине предложения. Полученная задача оформлена в виде трехклассового текстового следования на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard. Каждый пример состоит из предпосылки, содержащей встроенное предложение, и соответствующая гипотеза является извлечением этого предложения. Мы используем подмножество данных, у которых согласованность между аннотаторами выше 0,85. Данные несбалансированы (относительно меньше нейтральных примеров), поэтому мы оцениваем, используя точность и F1, где для нескольких классов F1 мы вычисляем невзвешенное среднее значение F1 для каждого класса.

  • Домашняя страница : https://github.com/mcdm/CommitmentBank

  • Размер загрузки : 73.71 KiB

  • Сплиты :

Расколоть Примеры
'test' 250
'train' 250
'validation' 56
  • Структура функции :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
гипотеза Текст tf.string
IDX Тензор tf.int32
этикетка Метка класса tf.int64
помещение Текст tf.string
  • Цитата :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/копа

  • Описание конфигурации : набор данных «Выбор правдоподобных альтернатив» (COPA, Roemmele et al., 2011) — это задача на причинно-следственные рассуждения, в которой системе дается исходное предложение и две возможные альтернативы. Система должна выбрать альтернативу, которая имеет более правдоподобную причинно-следственную связь с предпосылкой. Метод, используемый для построения альтернатив, гарантирует, что задача требует причинно-следственных рассуждений для решения. Примеры имеют дело либо с альтернативными возможными причинами, либо с альтернативными возможными последствиями предпосылки предложения, сопровождаясь простым вопросом, устраняющим неоднозначность между двумя типами экземпляров для модели. Все примеры созданы вручную и посвящены темам из онлайн-блогов и энциклопедии, связанной с фотографией. Следуя рекомендации авторов, мы оцениваем с помощью точности.

  • Домашняя страница : http://people.ict.usc.edu/~gordon/copa.html

  • Размер загрузки : 42.96 KiB

  • Сплиты :

Расколоть Примеры
'test' 500
'train' 400
'validation' 100
  • Структура функции :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
выбор1 Текст tf.string
выбор2 Текст tf.string
IDX Тензор tf.int32
этикетка Метка класса tf.int64
помещение Текст tf.string
вопрос Текст tf.string
  • Цитата :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/мультирк

  • Описание конфигурации : Набор данных для понимания прочитанного с несколькими предложениями (MultiRC, Khashabi et al., 2018) представляет собой задание на ответ на вопрос «верно/неверно». Каждый пример состоит из абзаца контекста, вопроса об этом абзаце и списка возможных ответов на этот вопрос, которые должны быть помечены как истинные или ложные. Вопросы-ответы (QA) — популярная проблема со многими наборами данных. Мы используем MultiRC из-за ряда желательных свойств: (i) каждый вопрос может иметь несколько возможных правильных ответов, поэтому каждая пара вопрос-ответ должна оцениваться независимо от других пар, (ii) вопросы составлены таким образом, что для ответа на каждый вопрос требуется извлечение фактов из нескольких контекстных предложений, и (iii) формат пары вопрос-ответ более точно соответствует API других задач SuperGLUE, чем извлекающий QA на основе диапазона. Абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.

  • Домашняя страница : https://cogcomp.org/multirc/

  • Размер загрузки : 1.06 MiB

  • Сплиты :

Расколоть Примеры
'test' 9693
'train' 27 243
'validation' 4848
  • Структура функции :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
отвечать Текст tf.string
IDX ОсобенностиDict
идентификатор/ответ Тензор tf.int32
идентификатор/абзац Тензор tf.int32
идентификатор/вопрос Тензор tf.int32
этикетка Метка класса tf.int64
параграф Текст tf.string
вопрос Текст tf.string
  • Цитата :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/запись

  • Описание конфигурации : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) — это задача контроля качества с несколькими вариантами ответов. Каждый пример состоит из новостной статьи и вопроса в стиле Клоуза о статье, в которой замаскирован один объект. Система должна предсказать замаскированный объект из заданного списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен с использованием нескольких различных поверхностных форм, все из которых считаются правильными. Статьи взяты из CNN и Daily Mail. Следуя оригинальной работе, мы оцениваем максимальный (по всем упоминаниям) уровень токена F1 и точное соответствие (EM).

  • Домашняя страница : https://sheng-z.github.io/ReCoRD-explorer/

  • Размер загрузки : 49.36 MiB

  • Сплиты :

Расколоть Примеры
'test' 10 000
'train' 100 730
'validation' 10 000
  • Структура функции :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
ответы Последовательность (текст) (Никто,) tf.string
сущности Последовательность (текст) (Никто,) tf.string
IDX ОсобенностиDict
IDX/проход Тензор tf.int32
идентификатор/запрос Тензор tf.int32
проход Текст tf.string
запрос Текст tf.string
  • Цитата :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • Описание конфигурации : наборы данных Recognizing Textual Entailment (RTE) получены из серии ежегодных соревнований по текстовому следствию, проблеме предсказания того, влечет ли данное предложение с посылкой данное предложение-гипотеза (также известное как вывод на естественном языке, NLI). RTE ранее был включен в GLUE, и мы используем те же данные и формат, что и раньше: мы объединяем данные из RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) и RTE5 (Bentivogli et al., 2009). Все наборы данных объединяются и преобразуются в двухклассовую классификацию: влечения и не влечения. Из всех задач GLUE задача RTE оказалась в числе задач, получивших наибольшую пользу от трансферного обучения: она перешла от почти случайной производительности (~ 56 %) во время запуска GLUE к точности 85 % (Liu et al., 2019c) в момент запуска GLUE. время написания. Однако, учитывая восьмибалльный разрыв в отношении производительности человека, задача еще не решена машинами, и мы ожидаем, что оставшийся разрыв будет трудно закрыть.

  • Домашняя страница : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Размер загрузки : 733.32 KiB

  • Сплиты :

Расколоть Примеры
'test' 3000
'train' 2490
'validation' 277
  • Структура функции :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
гипотеза Текст tf.string
IDX Тензор tf.int32
этикетка Метка класса tf.int64
помещение Текст tf.string
  • Цитата :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Описание конфигурации : набор данных Word-in-Context (WiC, Pilehvar and Camacho-Collados, 2019) поддерживает задачу устранения неоднозначности смысла слов, представленную как двоичная классификация пар предложений. Имея два предложения и многозначное (неоднозначное по смыслу) слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли это слово в одном и том же смысле в обоих предложениях. Предложения взяты из WordNet (Miller, 1995), VerbNet (Schuler, 2005) и Викисловаря. Мы следим за оригинальной работой и оцениваем с помощью точности.

  • Домашняя страница : https://pilehvar.github.io/wic/

  • Размер загрузки : 386.93 KiB

  • Сплиты :

Расколоть Примеры
'test' 1400
'train' 5428
'validation' 638
  • Структура функции :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
конец1 Тензор tf.int32
конец2 Тензор tf.int32
IDX Тензор tf.int32
этикетка Метка класса tf.int64
предложение1 Текст tf.string
предложение2 Текст tf.string
старт1 Тензор tf.int32
старт2 Тензор tf.int32
слово Текст tf.string
  • Цитата :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) — это задача на понимание прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и оставшийся запас, мы включили WSC в SuperGLUE и преобразовали набор данных в его корреферентную форму. Задача представляет собой проблему бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать кореферентные связи внутри предложения, в отличие от различных других стратегий, которые могут вступить в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательным классом большинства в проверочном наборе, отражающим распределение скрытого тестового набора, и 52% отрицательным классом в обучающем наборе. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также из тех, которые распространяются аффилированной организацией Commonsense Reasoning. Тестовые примеры взяты из художественных книг и предоставлены нам авторами исходного набора данных. Ранее версия WSC, преобразованная в NLI, включенная в GLUE, была известна как WNLI. В WNLI не было достигнуто существенного прогресса, поскольку во многих заявках было решено отправлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения обучения и разработки: предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутым ярлыком. Если система запоминала тренировочный набор без осмысленного обобщения, что было легко из-за небольшого размера тренировочного набора, она могла работать намного ниже шанса на наборе для разработки. Мы удаляем этот враждебный дизайн в версии WSC для SuperGLUE, гарантируя, что никакие предложения не будут использоваться совместно между обучающими, проверочными и тестовыми наборами.

Однако проверочные и тестовые наборы исходят из разных доменов, при этом проверочный набор состоит из неоднозначных примеров, так что изменение одного слова фразы, не являющейся существительным, изменит кореферентные зависимости в предложении. Тестовый набор состоит только из более простых примеров с большим количеством словосочетаний с существительными (и, следовательно, с большим количеством вариантов для модели), но с низкой двусмысленностью или без нее.

Расколоть Примеры
'test' 146
'train' 554
'validation' 104
  • Структура функции :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
IDX Тензор tf.int32
этикетка Метка класса tf.int64
span1_index Тензор tf.int32
span1_text Текст tf.string
span2_index Тензор tf.int32
span2_text Текст tf.string
текст Текст tf.string
  • Цитата :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) — это задача на понимание прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и оставшийся запас, мы включили WSC в SuperGLUE и преобразовали набор данных в его корреферентную форму. Задача представляет собой проблему бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать кореферентные связи внутри предложения, в отличие от различных других стратегий, которые могут вступить в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательным классом большинства в проверочном наборе, отражающим распределение скрытого тестового набора, и 52% отрицательным классом в обучающем наборе. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также из тех, которые распространяются аффилированной организацией Commonsense Reasoning. Тестовые примеры взяты из художественных книг и предоставлены нам авторами исходного набора данных. Ранее версия WSC, преобразованная в NLI, включенная в GLUE, была известна как WNLI. В WNLI не было достигнуто существенного прогресса, поскольку во многих заявках было решено отправлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения обучения и разработки: предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутым ярлыком. Если система запоминала тренировочный набор без осмысленного обобщения, что было легко из-за небольшого размера тренировочного набора, она могла работать намного ниже шанса на наборе для разработки. Мы удаляем этот враждебный дизайн в версии WSC для SuperGLUE, гарантируя, что никакие предложения не будут использоваться совместно между обучающими, проверочными и тестовыми наборами.

Однако проверочные и тестовые наборы исходят из разных доменов, при этом проверочный набор состоит из неоднозначных примеров, так что изменение одного слова фразы, не являющейся существительным, изменит кореферентные зависимости в предложении. Тестовый набор состоит только из более простых примеров с большим количеством словосочетаний с существительными (и, следовательно, с большим количеством вариантов для модели), но с низкой двусмысленностью или без нее.

В этой версии устранены проблемы, из-за которых интервалы на самом деле не являются подстроками текста.

Расколоть Примеры
'test' 146
'train' 554
'validation' 104
  • Структура функции :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
IDX Тензор tf.int32
этикетка Метка класса tf.int64
span1_index Тензор tf.int32
span1_text Текст tf.string
span2_index Тензор tf.int32
span2_text Текст tf.string
текст Текст tf.string
  • Цитата :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • Описание конфигурации : созданный экспертами набор диагностических данных, который автоматически проверяет модели на широкий спектр лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следования (последствие, нейтральное или противоречие) и помеченных ярлыками, которые указывают на явления, характеризующие отношения между двумя предложениями. Заявки в таблицу лидеров GLUE должны включать прогнозы классификатора MultiNLI отправки в наборе диагностических данных, а анализ результатов был показан вместе с основной таблицей лидеров. Поскольку эта широкомасштабная диагностическая задача оказалась сложной для топовых моделей, мы сохранили ее в SuperGLUE. Однако, поскольку MultiNLI не является частью SuperGLUE, мы объединяем противоречие и нейтральность в единую метку not_entailment и просим, ​​чтобы представленные материалы включали прогнозы результирующего набора из модели, используемой для задачи RTE.

  • Домашняя страница : https://gluebenchmark.com/diagnostics

  • Размер загрузки : 33.15 KiB

  • Сплиты :

Расколоть Примеры
'test' 1104
  • Структура функции :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
IDX Тензор tf.int32
этикетка Метка класса tf.int64
предложение1 Текст tf.string
предложение2 Текст tf.string
  • Цитата :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Описание конфига: Winogender предназначен для измерения гендерной предвзятости в системах разрешения кореферентности. Мы используем версию Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018), в которой Winogender рассматривается как текстовая задача следствия. Каждый пример состоит из исходного предложения с мужским или женским местоимением и гипотезы, дающей возможный антецедент местоимения. Примеры встречаются в минимальных парах, где единственная разница между примером и его парой - это род местоимения в посылке. Производительность на Winogender измеряется как точностью, так и оценкой гендерного паритета: процентом минимальных пар, для которых прогнозы совпадают. Мы отмечаем, что система может тривиально получить идеальный показатель гендерного паритета, угадывая один и тот же класс для всех примеров, поэтому высокий показатель гендерного паритета не имеет смысла, если он не сопровождается высокой точностью. В качестве диагностического теста гендерной предвзятости мы рассматриваем схемы как имеющие высокую положительную прогностическую ценность и низкую отрицательную прогностическую ценность; то есть они могут продемонстрировать наличие гендерной предвзятости в системе, но не доказать ее отсутствие.

  • Домашняя страница : https://github.com/rudinger/winogender-schemas

  • Размер загрузки : 10.17 KiB

  • Сплиты :

Расколоть Примеры
'test' 356
  • Структура функции :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
гипотеза Текст tf.string
IDX Тензор tf.int32
этикетка Метка класса tf.int64
помещение Текст tf.string
  • Цитата :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.