gema

  • Descrição :

O GEM é um ambiente de referência para Geração de Linguagem Natural com foco em sua Avaliação, tanto por meio de anotações humanas quanto por Métricas automatizadas.

O objetivo do GEM é: (1) medir o progresso do NLG em 13 conjuntos de dados abrangendo muitas tarefas e idiomas do NLG. (2) fornecer uma análise aprofundada dos dados e modelos apresentados por meio de declarações de dados e conjuntos de desafios. (3) desenvolver padrões para avaliação de texto gerado usando métricas automatizadas e humanas.

Mais informações podem ser encontradas em https://gem-benchmark.com .

gem/common_gen (configuração padrão)

  • Descrição da configuração : CommonGen é uma tarefa de geração de texto restrita, associada a um conjunto de dados de referência, para testar explicitamente as máquinas quanto à capacidade de raciocínio generativo de bom senso. Dado um conjunto de conceitos comuns; a tarefa é gerar uma frase coerente descrevendo um cenário cotidiano usando esses conceitos.

  • Tamanho do download : 1.84 MiB

  • Tamanho do conjunto de dados : 16.84 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1.497
'train' 67.389
'validation' 993
  • Estrutura de recursos :
FeaturesDict({
   
'concept_set_id': int32,
   
'concepts': Sequence(string),
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
concept_set_id tensor int32
conceitos Sequência(Tensor) (Nenhum,) corda
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
  • Citação :
@inproceedings{lin2020commongen,
  title
= "CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning",
  author
= "Lin, Bill Yuchen  and
    Zhou, Wangchunshu  and
    Shen, Ming  and
    Zhou, Pei  and
    Bhagavatula, Chandra  and
    Choi, Yejin  and
    Ren, Xiang"
,
  booktitle
= "Findings of the Association for Computational Linguistics: EMNLP 2020",
  month
= nov,
  year
= "2020",
  address
= "Online",
  publisher
= "Association for Computational Linguistics",
  url
= "https://www.aclweb.org/anthology/2020.findings-emnlp.165",
  pages
= "1823--1840",
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/cs_restaurants

  • Descrição da configuração : A tarefa é gerar respostas no contexto de um sistema de diálogo (hipotético) que fornece informações sobre restaurantes. A entrada é um tipo básico de ato de intenção/diálogo e uma lista de slots (atributos) e seus valores. A saída é uma frase em linguagem natural.

  • Tamanho do download : 1.46 MiB

  • Tamanho do conjunto de dados : 2.71 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 842
'train' 3.569
'validation' 781
  • Estrutura de recursos :
FeaturesDict({
   
'dialog_act': string,
   
'dialog_act_delexicalized': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'target_delexicalized': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
dialog_act tensor corda
dialog_act_delexicalized tensor corda
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
target_delexicalized tensor corda
  • Citação :
@inproceedings{cs_restaurants,
  address
= {Tokyo, Japan},
  title
= {Neural {Generation} for {Czech}: {Data} and {Baselines} },
  shorttitle
= {Neural {Generation} for {Czech} },
  url
= {https://www.aclweb.org/anthology/W19-8670/},
  urldate
= {2019-10-18},
  booktitle
= {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
  author
= {Dušek, Ondřej and Jurčíček, Filip},
  month
= oct,
  year
= {2019},
  pages
= {563--574}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gema/dardo

  • Descrição da configuração : o DART é um corpus de geração de registro de dados para texto estruturado grande e de domínio aberto com anotações de sentença de alta qualidade com cada entrada sendo um conjunto de triplos de relação de entidade seguindo uma ontologia estruturada em árvore.

  • Tamanho do download : 28.01 MiB

  • Tamanho do conjunto de dados : 33.78 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 6.959
'train' 62.659
'validation' 2.768
  • Estrutura de recursos :
FeaturesDict({
   
'dart_id': int32,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'subtree_was_extended': bool,
   
'target': string,
   
'target_sources': Sequence(string),
   
'tripleset': Sequence(string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
dart_id tensor int32
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
subtree_was_extended tensor bool
alvo tensor corda
target_sources Sequência(Tensor) (Nenhum,) corda
tripleset Sequência(Tensor) (Nenhum,) corda
  • Citação :
@article{radev2020dart,
  title
=Dart: Open-domain structured data record to text generation,
  author
={Radev, Dragomir and Zhang, Rui and Rau, Amrit and Sivaprasad, Abhinand and Hsieh, Chiachun and Rajani, Nazneen Fatema and Tang, Xiangru and Vyas, Aadit and Verma, Neha and Krishna, Pranav and others},
  journal
={arXiv preprint arXiv:2007.02871},
  year
={2020}
}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/e2e_nlg

  • Descrição da configuração : O conjunto de dados E2E é projetado para uma tarefa de dados para texto de domínio limitado - geração de descrições/recomendações de restaurantes com base em até 8 atributos diferentes (nome, área, faixa de preço, etc.)

  • Tamanho do download : 13.99 MiB

  • Tamanho do conjunto de dados : 16.92 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 4.693
'train' 33.525
'validation' 4.299
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'meaning_representation': string,
   
'references': Sequence(string),
   
'target': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
representação_significado tensor corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
  • Citação :
@inproceedings{e2e_cleaned,
  address
= {Tokyo, Japan},
  title
= {Semantic {Noise} {Matters} for {Neural} {Natural} {Language} {Generation} },
  url
= {https://www.aclweb.org/anthology/W19-8652/},
  booktitle
= {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
  author
= {Dušek, Ondřej and Howcroft, David M and Rieser, Verena},
  year
= {2019},
  pages
= {421--426},
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/mlsum_de

  • Descrição da configuração : MLSum é um conjunto de dados de resumo multilíngue em grande escala. É construído a partir de agências de notícias on-line, com foco no alemão.

  • Tamanho do download : 345.98 MiB

  • Tamanho do conjunto de dados : 963.60 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'challenge_test_covid' 5.058
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10.695
'train' 220.748
'validation' 11.392
  • Estrutura de recursos :
FeaturesDict({
   
'date': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'text': string,
   
'title': string,
   
'topic': string,
   
'url': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
encontro tensor corda
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
texto tensor corda
título tensor corda
tema tensor corda
url tensor corda
  • Citação :
@inproceedings{scialom-etal-2020-mlsum,
    title
= "{MLSUM}: The Multilingual Summarization Corpus",
    author
= {Scialom, Thomas  and Dray, Paul-Alexis  and Lamprier, Sylvain  and Piwowarski, Benjamin  and Staiano, Jacopo},
    booktitle
= {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
    year
= {2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/mlsum_es

  • Descrição da configuração : MLSum é um conjunto de dados de resumo multilíngue em grande escala. É construído a partir de agências de notícias on-line, com foco no espanhol.

  • Tamanho do download : 501.27 MiB

  • Tamanho do conjunto de dados : 1.29 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'challenge_test_covid' 1.938
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 13.366
'train' 259.888
'validation' 9.977
  • Estrutura de recursos :
FeaturesDict({
   
'date': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'text': string,
   
'title': string,
   
'topic': string,
   
'url': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
encontro tensor corda
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
texto tensor corda
título tensor corda
tema tensor corda
url tensor corda
  • Citação :
@inproceedings{scialom-etal-2020-mlsum,
    title
= "{MLSUM}: The Multilingual Summarization Corpus",
    author
= {Scialom, Thomas  and Dray, Paul-Alexis  and Lamprier, Sylvain  and Piwowarski, Benjamin  and Staiano, Jacopo},
    booktitle
= {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
    year
= {2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/schema_guided_dialog

  • Descrição da configuração : O conjunto de dados Schema-Guided Dialogue (SGD) contém 18K de diálogos orientados a tarefas de vários domínios entre um humano e um assistente virtual, que abrange 17 domínios, desde bancos e eventos até mídia, calendário, viagens e clima.

  • Tamanho do download : 17.00 MiB

  • Tamanho do conjunto de dados : 201.19 MiB

  • Cache automático ( documentação ): Sim (challenge_test_backtranslation, challenge_test_bfp02, challenge_test_bfp05, challenge_test_nopunc, challenge_test_scramble, challenge_train_sample, challenge_validation_sample, teste, validação), somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'challenge_test_backtranslation' 500
'challenge_test_bfp02' 500
'challenge_test_bfp05' 500
'challenge_test_nopunc' 500
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10.000
'train' 164.982
'validation' 10.000
  • Estrutura de recursos :
FeaturesDict({
   
'context': Sequence(string),
   
'dialog_acts': Sequence({
       
'act': ClassLabel(shape=(), dtype=int64, num_classes=18),
       
'slot': string,
       
'values': Sequence(string),
   
}),
   
'dialog_id': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'prompt': string,
   
'references': Sequence(string),
   
'service': string,
   
'target': string,
   
'turn_id': int32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
contexto Sequência(Tensor) (Nenhum,) corda
dialog_acts Seqüência
dialog_acts/act ClassLabel int64
dialog_acts/slot tensor corda
diálogo_atos/valores Sequência(Tensor) (Nenhum,) corda
dialog_id tensor corda
gem_id tensor corda
gem_parent_id tensor corda
pronto tensor corda
referências Sequência(Tensor) (Nenhum,) corda
serviço tensor corda
alvo tensor corda
turn_id tensor int32
  • Citação :
@article{rastogi2019towards,
  title
={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
  author
={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
  journal
={arXiv preprint arXiv:1909.05855},
  year
={2019}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

joia/totto

  • Descrição da configuração : ToTTo é uma tarefa NLG Table-to-Text. A tarefa é a seguinte: Dada uma tabela da Wikipédia com nomes de linha, nomes de coluna e células de tabela, com um subconjunto de células destacadas, gere uma descrição em linguagem natural para a parte destacada da tabela.

  • Tamanho do download : 180.75 MiB

  • Tamanho do conjunto de dados : 645.86 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 7.700
'train' 121.153
'validation' 7.700
  • Estrutura de recursos :
FeaturesDict({
   
'example_id': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'highlighted_cells': Sequence(Sequence(int32)),
   
'overlap_subset': string,
   
'references': Sequence(string),
   
'sentence_annotations': Sequence({
       
'final_sentence': string,
       
'original_sentence': string,
       
'sentence_after_ambiguity': string,
       
'sentence_after_deletion': string,
   
}),
   
'table': Sequence(Sequence({
       
'column_span': int32,
       
'is_header': bool,
       
'row_span': int32,
       
'value': string,
   
})),
   
'table_page_title': string,
   
'table_section_text': string,
   
'table_section_title': string,
   
'table_webpage_url': string,
   
'target': string,
   
'totto_id': int32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
exemplo_id tensor corda
gem_id tensor corda
gem_parent_id tensor corda
células_destacadas Sequência(Sequência(Tensor)) (Nenhuma, Nenhuma) int32
sobreposição_subconjunto tensor corda
referências Sequência(Tensor) (Nenhum,) corda
frases_anotações Seqüência
sentença_anotações/final_sentença tensor corda
sentença_anotações/original_sentença tensor corda
sentença_annotations/sentence_after_ambiguity tensor corda
sentença_annotations/sentence_after_deletion tensor corda
tabela Seqüência
tabela/coluna_span tensor int32
tabela/é_cabeçalho tensor bool
table/row_span tensor int32
tabela/valor tensor corda
table_page_title tensor corda
table_section_text tensor corda
table_section_title tensor corda
table_webpage_url tensor corda
alvo tensor corda
totto_id tensor int32
  • Citação :
@inproceedings{parikh2020totto,
  title
=ToTTo: A Controlled Table-To-Text Generation Dataset,
  author
={Parikh, Ankur and Wang, Xuezhi and Gehrmann, Sebastian and Faruqui, Manaal and Dhingra, Bhuwan and Yang, Diyi and Das, Dipanjan},
  booktitle
={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
  pages
={1173--1186},
  year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/web_nlg_en

  • Descrição da configuração : WebNLG é um conjunto de dados bilíngue (inglês, russo) de conjuntos triplos DBpedia paralelos e textos curtos que abrangem cerca de 450 propriedades DBpedia diferentes. Os dados WebNLG foram originalmente criados para promover o desenvolvimento de verbalizadores RDF capazes de gerar textos curtos e lidar com microplanejamento.

  • Tamanho do download : 12.57 MiB

  • Tamanho do conjunto de dados : 19.91 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'challenge_test_numbers' 500
'challenge_test_scramble' 500
'challenge_train_sample' 502
'challenge_validation_sample' 499
'test' 1.779
'train' 35.426
'validation' 1.667
  • Estrutura de recursos :
FeaturesDict({
   
'category': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'input': Sequence(string),
   
'references': Sequence(string),
   
'target': string,
   
'webnlg_id': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
categoria tensor corda
gem_id tensor corda
gem_parent_id tensor corda
entrada Sequência(Tensor) (Nenhum,) corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
webnlg_id tensor corda
  • Citação :
@inproceedings{gardent2017creating,
  author
= "Gardent, Claire
    and Shimorina, Anastasia
    and Narayan, Shashi
    and Perez-Beltrachini, Laura"
,
  title
= "Creating Training Corpora for NLG Micro-Planners",
  booktitle
= "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
  year
= "2017",
  publisher
= "Association for Computational Linguistics",
  pages
= "179--188",
  location
= "Vancouver, Canada",
  doi
= "10.18653/v1/P17-1017",
  url
= "http://www.aclweb.org/anthology/P17-1017"
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/web_nlg_ru

  • Descrição da configuração : WebNLG é um conjunto de dados bilíngue (inglês, russo) de conjuntos triplos DBpedia paralelos e textos curtos que abrangem cerca de 450 propriedades DBpedia diferentes. Os dados WebNLG foram originalmente criados para promover o desenvolvimento de verbalizadores RDF capazes de gerar textos curtos e lidar com microplanejamento.

  • Tamanho do download : 7.49 MiB

  • Tamanho do conjunto de dados : 11.30 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'challenge_test_scramble' 500
'challenge_train_sample' 501
'challenge_validation_sample' 500
'test' 1.102
'train' 14.630
'validation' 790
  • Estrutura de recursos :
FeaturesDict({
   
'category': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'input': Sequence(string),
   
'references': Sequence(string),
   
'target': string,
   
'webnlg_id': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
categoria tensor corda
gem_id tensor corda
gem_parent_id tensor corda
entrada Sequência(Tensor) (Nenhum,) corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
webnlg_id tensor corda
  • Citação :
@inproceedings{gardent2017creating,
  author
= "Gardent, Claire
    and Shimorina, Anastasia
    and Narayan, Shashi
    and Perez-Beltrachini, Laura"
,
  title
= "Creating Training Corpora for NLG Micro-Planners",
  booktitle
= "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
  year
= "2017",
  publisher
= "Association for Computational Linguistics",
  pages
= "179--188",
  location
= "Vancouver, Canada",
  doi
= "10.18653/v1/P17-1017",
  url
= "http://www.aclweb.org/anthology/P17-1017"
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_auto_asset_turk

  • Descrição da configuração : WikiAuto fornece um conjunto de sentenças alinhadas da Wikipedia em inglês e da Wikipedia em inglês simples como um recurso para treinar sistemas de simplificação de sentenças. ASSET e TURK são conjuntos de dados de simplificação de alta qualidade usados ​​para testes.

  • Tamanho do download : 121.01 MiB

  • Tamanho do conjunto de dados : 202.40 MiB

  • Auto-cached ( documentation ): Yes (challenge_test_asset_backtranslation, challenge_test_asset_bfp02, challenge_test_asset_bfp05, challenge_test_asset_nopunc, challenge_test_turk_backtranslation, challenge_test_turk_bfp02, challenge_test_turk_bfp05, challenge_test_turk_nopunc, challenge_train_sample, challenge_validation_sample, test_asset, test_turk, validation), Only when shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'challenge_test_asset_backtranslation' 359
'challenge_test_asset_bfp02' 359
'challenge_test_asset_bfp05' 359
'challenge_test_asset_nopunc' 359
'challenge_test_turk_backtranslation' 359
'challenge_test_turk_bfp02' 359
'challenge_test_turk_bfp05' 359
'challenge_test_turk_nopunc' 359
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test_asset' 359
'test_turk' 359
'train' 483.801
'validation' 20.000
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'target': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
alvo tensor corda
  • Citação :
@inproceedings{jiang-etal-2020-neural,
    title
= "Neural {CRF} Model for Sentence Alignment in Text Simplification",
    author
= "Jiang, Chao  and
      Maddela, Mounica  and
      Lan, Wuwei  and
      Zhong, Yang  and
      Xu, Wei"
,
    booktitle
= "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month
= jul,
    year
= "2020",
    address
= "Online",
    publisher
= "Association for Computational Linguistics",
    url
= "https://www.aclweb.org/anthology/2020.acl-main.709",
    doi
= "10.18653/v1/2020.acl-main.709",
    pages
= "7943--7960",
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/xsum

  • Descrição da configuração : O conjunto de dados é para a tarefa de resumo abstrato em sua forma extrema, trata-se de resumir um documento em uma única frase.

  • Tamanho do download : 246.31 MiB

  • Tamanho do conjunto de dados : 78.89 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'challenge_test_backtranslation' 500
'challenge_test_bfp_02' 500
'challenge_test_bfp_05' 500
'challenge_test_covid' 401
'challenge_test_nopunc' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1.166
'train' 23.206
'validation' 1.117
  • Estrutura de recursos :
FeaturesDict({
   
'document': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'xsum_id': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
documento tensor corda
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
alvo tensor corda
xsum_id tensor corda
  • Citação :
@inproceedings{Narayan2018dont,
  author
= "Shashi Narayan and Shay B. Cohen and Mirella Lapata",
  title
= "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization",
  booktitle
= "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ",
  year
= "2018",
  address
= "Brussels, Belgium",
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_arabic_ar

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 56.25 MiB

  • Tamanho do conjunto de dados : 291.42 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 5.841
'train' 20.441
'validation' 2.919
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'ar': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'ar': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/ar Texto corda
source_aligned/en Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/ar Texto corda
target_aligned/en Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_chinese_zh

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 31.38 MiB

  • Tamanho do conjunto de dados : 122.06 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 3.775
'train' 13.211
'validation' 1.886
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'zh': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'zh': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/zh Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/zh Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_czech_cs

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 13.84 MiB

  • Tamanho do conjunto de dados : 58.05 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.438
'train' 5.033
'validation' 718
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'cs': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'cs': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/cs Texto corda
source_aligned/en Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/cs Texto corda
target_aligned/en Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_dutch_nl

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 53.88 MiB

  • Tamanho do conjunto de dados : 237.97 MiB

  • Cache automático ( documentação ): Sim (teste, validação), somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'test' 6.248
'train' 21.866
'validation' 3.123
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'nl': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'nl': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/nl Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/nl Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_english_en

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 112.56 MiB

  • Tamanho do conjunto de dados : 657.51 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 28.614
'train' 99.020
'validation' 13.823
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_french_fr

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 113.26 MiB

  • Tamanho do conjunto de dados : 522.28 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 12.731
'train' 44.556
'validation' 6.364
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'fr': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'fr': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/fr Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/fr Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_german_de

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 102.65 MiB

  • Tamanho do conjunto de dados : 452.46 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 11.669
'train' 40.839
'validation' 5.833
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'de': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'de': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/de Texto corda
source_aligned/en Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/de Texto corda
target_aligned/en Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_hindi_hi

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 20.07 MiB

  • Tamanho do conjunto de dados : 138.06 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 1.984
'train' 6.942
'validation' 991
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'hi': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'hi': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/oi Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/oi Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_indonesian_id

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 80.08 MiB

  • Tamanho do conjunto de dados : 370.63 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 9.497
'train' 33.237
'validation' 4.747
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'id': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'id': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/id Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/id Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_italian_it

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 84.80 MiB

  • Tamanho do conjunto de dados : 374.40 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 10.189
'train' 35.661
'validation' 5.093
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'it': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'it': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/it Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/it Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_japanese_ja

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 21.75 MiB

  • Tamanho do conjunto de dados : 103.19 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 2.530
'train' 8.853
'validation' 1.264
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ja': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ja': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/ja Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/ja Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_korean_ko

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 22.26 MiB

  • Tamanho do conjunto de dados : 102.35 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 2.436
'train' 8.524
'validation' 1.216
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ko': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ko': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/ko Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/ko Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_portuguese_pt

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 131.17 MiB

  • Tamanho do conjunto de dados : 570.46 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 16.331
'train' 57.159
'validation' 8.165
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'pt': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'pt': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/pt Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/pt Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_russian_ru

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 101.36 MiB

  • Tamanho do conjunto de dados : 564.69 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 10.580
'train' 37.028
'validation' 5.288
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ru': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ru': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/ru Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/ru Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_spanish_es

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 189.06 MiB

  • Tamanho do conjunto de dados : 849.75 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 22.632
'train' 79.212
'validation' 11.316
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'es': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'es': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/es Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/es Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_thai_th

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 28.60 MiB

  • Tamanho do conjunto de dados : 193.77 MiB

  • Cache automático ( documentação ): Sim (teste, validação), somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'test' 2.950
'train' 10.325
'validation' 1.475
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'th': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'th': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/th Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/th Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_turkish_tr

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 6.73 MiB

  • Tamanho do conjunto de dados : 30.75 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 900
'train' 3.148
'validation' 449
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'tr': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'tr': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/tr Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/tr Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

gem/wiki_lingua_vietnamese_vi

  • Descrição da configuração : Wikilingua é um conjunto de dados multilíngue em larga escala para a avaliação de sistemas de sumarização abstrativos multilíngues.

  • Tamanho do download : 36.27 MiB

  • Tamanho do conjunto de dados : 179.77 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 3.917
'train' 13.707
'validation' 1.957
  • Estrutura de recursos :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'vi': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'vi': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
gem_id tensor corda
gem_parent_id tensor corda
referências Sequência(Tensor) (Nenhum,) corda
fonte tensor corda
source_aligned Tradução
source_aligned/en Texto corda
source_aligned/vi Texto corda
alvo tensor corda
target_aligned Tradução
target_aligned/en Texto corda
target_aligned/vi Texto corda
  • Citação :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."