جوهرة

  • الوصف :

GEM هي بيئة معيارية لتوليد اللغة الطبيعية مع التركيز على تقييمها ، سواء من خلال التعليقات التوضيحية البشرية والمقاييس الآلية.

يهدف GEM إلى: (1) قياس تقدم NLG عبر 13 مجموعة بيانات تغطي العديد من مهام ولغات NLG. (2) توفير تحليل متعمق للبيانات والنماذج المقدمة عبر بيانات البيانات ومجموعات التحدي. (3) وضع معايير لتقييم النص الذي تم إنشاؤه باستخدام المقاييس الآلية والبشرية.

يمكن العثور على مزيد من المعلومات على https://gem-benchmark.com .

gem / common_gen (التكوين الافتراضي)

  • وصف التكوين : CommonGen هي مهمة إنشاء نص مقيد ، مرتبطة بمجموعة بيانات معيارية ، لاختبار الآلات بشكل صريح لقدرة التفكير المنطقي التوليدي. بالنظر إلى مجموعة من المفاهيم المشتركة ؛ المهمة هي إنشاء جملة متماسكة تصف السيناريو اليومي باستخدام هذه المفاهيم.

  • حجم التحميل : 1.84 MiB

  • حجم مجموعة البيانات : 16.84 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1،497
'train' 67389
'validation' 993
  • هيكل الميزة :
FeaturesDict({
   
'concept_set_id': int32,
   
'concepts': Sequence(string),
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
concept_set_id موتر int32
المفاهيم تسلسل (موتر) (لا أحد،) سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
  • الاقتباس :
@inproceedings{lin2020commongen,
  title
= "CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning",
  author
= "Lin, Bill Yuchen  and
    Zhou, Wangchunshu  and
    Shen, Ming  and
    Zhou, Pei  and
    Bhagavatula, Chandra  and
    Choi, Yejin  and
    Ren, Xiang"
,
  booktitle
= "Findings of the Association for Computational Linguistics: EMNLP 2020",
  month
= nov,
  year
= "2020",
  address
= "Online",
  publisher
= "Association for Computational Linguistics",
  url
= "https://www.aclweb.org/anthology/2020.findings-emnlp.165",
  pages
= "1823--1840",
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / cs_restaurants

  • وصف التكوين : المهمة هي إنشاء استجابات في سياق نظام حوار (افتراضي) يوفر معلومات حول المطاعم. الإدخال هو نوع أساسي من نية النية / إجراء حوار وقائمة من الفتحات (السمات) وقيمها. الناتج عبارة عن جملة بلغة طبيعية.

  • حجم التحميل : 1.46 MiB

  • حجم مجموعة البيانات : 2.71 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 842
'train' 3569
'validation' 781
  • هيكل الميزة :
FeaturesDict({
   
'dialog_act': string,
   
'dialog_act_delexicalized': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'target_delexicalized': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الحوار_act موتر سلسلة
الحوار_اكت_مفصلة موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
target_delexicalized موتر سلسلة
  • الاقتباس :
@inproceedings{cs_restaurants,
  address
= {Tokyo, Japan},
  title
= {Neural {Generation} for {Czech}: {Data} and {Baselines} },
  shorttitle
= {Neural {Generation} for {Czech} },
  url
= {https://www.aclweb.org/anthology/W19-8670/},
  urldate
= {2019-10-18},
  booktitle
= {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
  author
= {Dušek, Ondřej and Jurčíček, Filip},
  month
= oct,
  year
= {2019},
  pages
= {563--574}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / دارت

  • وصف التكوين : DART عبارة عن مجموعة DAta Record to Text كبيرة ومفتوحة المجال مع تعليقات توضيحية للجملة عالية الجودة مع كون كل إدخال عبارة عن مجموعة من ثلاثيات علاقة الكيان بعد أنطولوجيا مبنية على شجرة.

  • حجم التحميل : 28.01 MiB

  • حجم مجموعة البيانات : 33.78 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 6،959
'train' 62659
'validation' 2768
  • هيكل الميزة :
FeaturesDict({
   
'dart_id': int32,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'subtree_was_extended': bool,
   
'target': string,
   
'target_sources': Sequence(string),
   
'tripleset': Sequence(string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
dart_id موتر int32
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
الشجرة الفرعية موتر منطقي
استهداف موتر سلسلة
الهدف_المصادر تسلسل (موتر) (لا أحد،) سلسلة
ثلاثية تسلسل (موتر) (لا أحد،) سلسلة
  • الاقتباس :
@article{radev2020dart,
  title
=Dart: Open-domain structured data record to text generation,
  author
={Radev, Dragomir and Zhang, Rui and Rau, Amrit and Sivaprasad, Abhinand and Hsieh, Chiachun and Rajani, Nazneen Fatema and Tang, Xiangru and Vyas, Aadit and Verma, Neha and Krishna, Pranav and others},
  journal
={arXiv preprint arXiv:2007.02871},
  year
={2020}
}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / e2e_nlg

  • وصف التكوين : تم تصميم مجموعة بيانات E2E لمهمة محدودة النطاق لتحويل البيانات إلى نص - إنشاء أوصاف / توصيات للمطعم بناءً على ما يصل إلى 8 سمات مختلفة (الاسم والمنطقة والنطاق السعري وما إلى ذلك)

  • حجم التحميل : 13.99 MiB

  • حجم مجموعة البيانات : 16.92 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 4،693
'train' 33525
'validation' 4299
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'meaning_representation': string,
   
'references': Sequence(string),
   
'target': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
تمثيل المعنى موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
  • الاقتباس :
@inproceedings{e2e_cleaned,
  address
= {Tokyo, Japan},
  title
= {Semantic {Noise} {Matters} for {Neural} {Natural} {Language} {Generation} },
  url
= {https://www.aclweb.org/anthology/W19-8652/},
  booktitle
= {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
  author
= {Dušek, Ondřej and Howcroft, David M and Rieser, Verena},
  year
= {2019},
  pages
= {421--426},
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / mlsum_de

  • وصف التكوين : MLSum عبارة عن مجموعة بيانات تلخيص متعددة اللغات واسعة النطاق. إنه مستمد من المنافذ الإخبارية على الإنترنت ، ويركز هذا الانقسام على اللغة الألمانية.

  • حجم التحميل : 345.98 MiB

  • حجم مجموعة البيانات : 963.60 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_covid' 5،058
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10.695
'train' 220748
'validation' 11392
  • هيكل الميزة :
FeaturesDict({
   
'date': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'text': string,
   
'title': string,
   
'topic': string,
   
'url': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
تاريخ موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
نص موتر سلسلة
لقب موتر سلسلة
عنوان موتر سلسلة
عنوان url موتر سلسلة
  • الاقتباس :
@inproceedings{scialom-etal-2020-mlsum,
    title
= "{MLSUM}: The Multilingual Summarization Corpus",
    author
= {Scialom, Thomas  and Dray, Paul-Alexis  and Lamprier, Sylvain  and Piwowarski, Benjamin  and Staiano, Jacopo},
    booktitle
= {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
    year
= {2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / mlsum_es

  • وصف التكوين : MLSum عبارة عن مجموعة بيانات تلخيص متعددة اللغات واسعة النطاق. إنه مستمد من المنافذ الإخبارية على الإنترنت ، ويركز هذا الانقسام على اللغة الإسبانية.

  • حجم التحميل : 501.27 MiB

  • حجم مجموعة البيانات : 1.29 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_covid' 1،938
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 13366
'train' 259،888
'validation' 9977
  • هيكل الميزة :
FeaturesDict({
   
'date': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'text': string,
   
'title': string,
   
'topic': string,
   
'url': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
تاريخ موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
نص موتر سلسلة
لقب موتر سلسلة
عنوان موتر سلسلة
عنوان url موتر سلسلة
  • الاقتباس :
@inproceedings{scialom-etal-2020-mlsum,
    title
= "{MLSUM}: The Multilingual Summarization Corpus",
    author
= {Scialom, Thomas  and Dray, Paul-Alexis  and Lamprier, Sylvain  and Piwowarski, Benjamin  and Staiano, Jacopo},
    booktitle
= {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
    year
= {2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / schema_guided_dialog

  • وصف التكوين : تحتوي مجموعة بيانات المخطط الموجه (SGD) على 18 ألف حوارات متعددة المجالات موجهة للمهام بين مساعد بشري وافتراضي ، والتي تغطي 17 مجالًا تتراوح من البنوك والأحداث إلى الوسائط والتقويم والسفر والطقس.

  • حجم التحميل : 17.00 MiB

  • حجم مجموعة البيانات : 201.19 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (Challen_test_backtranslation، Challen_test_bfp02، Challen_test_bfp05، Challen_test_nopunc، Challen_test_scramble، Challen_train_sample، Challen_validation_sample، test، Validation)، only when shuffle_files=False (train)

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_backtranslation' 500
'challenge_test_bfp02' 500
'challenge_test_bfp05' 500
'challenge_test_nopunc' 500
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10000
'train' 164982
'validation' 10000
  • هيكل الميزة :
FeaturesDict({
   
'context': Sequence(string),
   
'dialog_acts': Sequence({
       
'act': ClassLabel(shape=(), dtype=int64, num_classes=18),
       
'slot': string,
       
'values': Sequence(string),
   
}),
   
'dialog_id': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'prompt': string,
   
'references': Sequence(string),
   
'service': string,
   
'target': string,
   
'turn_id': int32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
سياق الكلام تسلسل (موتر) (لا أحد،) سلسلة
حوارات تسلسل
الحوار / الفعل ClassLabel int64
الحوار / الفتحة موتر سلسلة
الحوار / القيم تسلسل (موتر) (لا أحد،) سلسلة
مربع الحوار موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
مستعجل موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
الخدمات موتر سلسلة
استهداف موتر سلسلة
turn_id موتر int32
  • الاقتباس :
@article{rastogi2019towards,
  title
={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
  author
={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
  journal
={arXiv preprint arXiv:1909.05855},
  year
={2019}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / توتو

  • وصف التكوين : ToTTo هي مهمة NLG من جدول إلى نص. المهمة كالتالي: إعطاء جدول Wikipedia مع أسماء الصفوف وأسماء الأعمدة وخلايا الجدول ، مع تمييز مجموعة فرعية من الخلايا ، قم بإنشاء وصف للغة الطبيعية للجزء المميز من الجدول.

  • حجم التحميل : 180.75 MiB

  • حجم مجموعة البيانات : 645.86 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 7700
'train' 121153
'validation' 7700
  • هيكل الميزة :
FeaturesDict({
   
'example_id': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'highlighted_cells': Sequence(Sequence(int32)),
   
'overlap_subset': string,
   
'references': Sequence(string),
   
'sentence_annotations': Sequence({
       
'final_sentence': string,
       
'original_sentence': string,
       
'sentence_after_ambiguity': string,
       
'sentence_after_deletion': string,
   
}),
   
'table': Sequence(Sequence({
       
'column_span': int32,
       
'is_header': bool,
       
'row_span': int32,
       
'value': string,
   
})),
   
'table_page_title': string,
   
'table_section_text': string,
   
'table_section_title': string,
   
'table_webpage_url': string,
   
'target': string,
   
'totto_id': int32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
example_id موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
مميزة_الخلايا تسلسل (تسلسل (موتر)) (ليس ليس) int32
مجموعة فرعية متداخلة موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
شروح الجملة تسلسل
الجملة_التعليقات / الجملة النهائية موتر سلسلة
الجملة_التعليقات / الأصل_المحرر موتر سلسلة
الجملة_التعليقات / الجملة_بعد_التباس موتر سلسلة
الجملة_التعليقات / الجملة_بعد_الحذف موتر سلسلة
الطاولة تسلسل
جدول / عمود_سبان موتر int32
الجدول / is_header موتر منطقي
الجدول / row_span موتر int32
الجدول / القيمة موتر سلسلة
table_page_title موتر سلسلة
table_section_text موتر سلسلة
table_section_title موتر سلسلة
table_webpage_url موتر سلسلة
استهداف موتر سلسلة
totto_id موتر int32
  • الاقتباس :
@inproceedings{parikh2020totto,
  title
=ToTTo: A Controlled Table-To-Text Generation Dataset,
  author
={Parikh, Ankur and Wang, Xuezhi and Gehrmann, Sebastian and Faruqui, Manaal and Dhingra, Bhuwan and Yang, Diyi and Das, Dipanjan},
  booktitle
={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
  pages
={1173--1186},
  year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / web_nlg_ar

  • وصف التكوين : WebNLG عبارة عن مجموعة بيانات ثنائية اللغة (باللغتين الإنجليزية والروسية) من مجموعات ثلاثية DBpedia متوازية ونصوص قصيرة تغطي حوالي 450 خاصية DBpedia مختلفة. تم إنشاء بيانات WebNLG في الأصل لتعزيز تطوير المتحدثين اللفظيين RDF القادرين على إنشاء نص قصير والتعامل مع التخطيط الجزئي.

  • حجم التحميل : 12.57 MiB

  • حجم مجموعة البيانات : 19.91 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_numbers' 500
'challenge_test_scramble' 500
'challenge_train_sample' 502
'challenge_validation_sample' 499
'test' 1،779
'train' 35426
'validation' 1،667
  • هيكل الميزة :
FeaturesDict({
   
'category': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'input': Sequence(string),
   
'references': Sequence(string),
   
'target': string,
   
'webnlg_id': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الفئة موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
الإدخال تسلسل (موتر) (لا أحد،) سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
webnlg_id موتر سلسلة
  • الاقتباس :
@inproceedings{gardent2017creating,
  author
= "Gardent, Claire
    and Shimorina, Anastasia
    and Narayan, Shashi
    and Perez-Beltrachini, Laura"
,
  title
= "Creating Training Corpora for NLG Micro-Planners",
  booktitle
= "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
  year
= "2017",
  publisher
= "Association for Computational Linguistics",
  pages
= "179--188",
  location
= "Vancouver, Canada",
  doi
= "10.18653/v1/P17-1017",
  url
= "http://www.aclweb.org/anthology/P17-1017"
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / web_nlg_ru

  • وصف التكوين : WebNLG عبارة عن مجموعة بيانات ثنائية اللغة (باللغتين الإنجليزية والروسية) من مجموعات ثلاثية DBpedia متوازية ونصوص قصيرة تغطي حوالي 450 خاصية DBpedia مختلفة. تم إنشاء بيانات WebNLG في الأصل لتعزيز تطوير المتحدثين اللفظيين RDF القادرين على إنشاء نص قصير والتعامل مع التخطيط الجزئي.

  • حجم التحميل : 7.49 MiB

  • حجم مجموعة البيانات : 11.30 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_scramble' 500
'challenge_train_sample' 501
'challenge_validation_sample' 500
'test' 1،102
'train' 14،630
'validation' 790
  • هيكل الميزة :
FeaturesDict({
   
'category': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'input': Sequence(string),
   
'references': Sequence(string),
   
'target': string,
   
'webnlg_id': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الفئة موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
الإدخال تسلسل (موتر) (لا أحد،) سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
webnlg_id موتر سلسلة
  • الاقتباس :
@inproceedings{gardent2017creating,
  author
= "Gardent, Claire
    and Shimorina, Anastasia
    and Narayan, Shashi
    and Perez-Beltrachini, Laura"
,
  title
= "Creating Training Corpora for NLG Micro-Planners",
  booktitle
= "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
  year
= "2017",
  publisher
= "Association for Computational Linguistics",
  pages
= "179--188",
  location
= "Vancouver, Canada",
  doi
= "10.18653/v1/P17-1017",
  url
= "http://www.aclweb.org/anthology/P17-1017"
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_auto_asset_turk

  • وصف التكوين : يوفر WikiAuto مجموعة من الجمل المتوافقة من Wikipedia الإنجليزية و Simple English Wikipedia كمورد لتدريب أنظمة تبسيط الجملة. ASSET و TURK هي مجموعات بيانات تبسيط عالية الجودة تُستخدم للاختبار.

  • حجم التحميل : 121.01 MiB

  • حجم مجموعة البيانات : 202.40 MiB

  • Auto-cached ( documentation ): Yes (challenge_test_asset_backtranslation, challenge_test_asset_bfp02, challenge_test_asset_bfp05, challenge_test_asset_nopunc, challenge_test_turk_backtranslation, challenge_test_turk_bfp02, challenge_test_turk_bfp05, challenge_test_turk_nopunc, challenge_train_sample, challenge_validation_sample, test_asset, test_turk, validation), Only when shuffle_files=False (train)

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_asset_backtranslation' 359
'challenge_test_asset_bfp02' 359
'challenge_test_asset_bfp05' 359
'challenge_test_asset_nopunc' 359
'challenge_test_turk_backtranslation' 359
'challenge_test_turk_bfp02' 359
'challenge_test_turk_bfp05' 359
'challenge_test_turk_nopunc' 359
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test_asset' 359
'test_turk' 359
'train' 483801
'validation' 20000
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'target': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
استهداف موتر سلسلة
  • الاقتباس :
@inproceedings{jiang-etal-2020-neural,
    title
= "Neural {CRF} Model for Sentence Alignment in Text Simplification",
    author
= "Jiang, Chao  and
      Maddela, Mounica  and
      Lan, Wuwei  and
      Zhong, Yang  and
      Xu, Wei"
,
    booktitle
= "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month
= jul,
    year
= "2020",
    address
= "Online",
    publisher
= "Association for Computational Linguistics",
    url
= "https://www.aclweb.org/anthology/2020.acl-main.709",
    doi
= "10.18653/v1/2020.acl-main.709",
    pages
= "7943--7960",
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / xsum

  • وصف التكوين : مجموعة البيانات مخصصة لمهمة التلخيص التجريدي في شكله المتطرف ، وهو يتعلق بتلخيص مستند في جملة واحدة.

  • حجم التحميل : 246.31 MiB

  • حجم مجموعة البيانات : 78.89 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'challenge_test_backtranslation' 500
'challenge_test_bfp_02' 500
'challenge_test_bfp_05' 500
'challenge_test_covid' 401
'challenge_test_nopunc' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1166
'train' 23206
'validation' 1117
  • هيكل الميزة :
FeaturesDict({
   
'document': string,
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'target': string,
   
'xsum_id': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
وثيقة موتر سلسلة
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
استهداف موتر سلسلة
xsum_id موتر سلسلة
  • الاقتباس :
@inproceedings{Narayan2018dont,
  author
= "Shashi Narayan and Shay B. Cohen and Mirella Lapata",
  title
= "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization",
  booktitle
= "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ",
  year
= "2018",
  address
= "Brussels, Belgium",
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_arabic_ar

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 56.25 MiB

  • حجم مجموعة البيانات : 291.42 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 5841
'train' 20441
'validation' 2919
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'ar': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'ar': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / ar نص سلسلة
source_aligned / en نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / ar نص سلسلة
target_aligned / en نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_chinese_zh

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 31.38 MiB

  • حجم مجموعة البيانات : 122.06 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 3،775
'train' 13211
'validation' 1،886
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'zh': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'zh': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / zh نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / zh نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_czech_cs

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 13.84 MiB

  • حجم مجموعة البيانات : 58.05 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1438
'train' 5،033
'validation' 718
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'cs': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'cs': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / cs نص سلسلة
source_aligned / en نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / cs نص سلسلة
target_aligned / en نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_dutch_nl

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 53.88 MiB

  • حجم مجموعة البيانات : 237.97 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 6،248
'train' 21،866
'validation' 3،123
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'nl': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'nl': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / nl نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / nl نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_english_ar

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 112.56 MiB

  • حجم مجموعة البيانات : 657.51 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 28614
'train' 99.020
'validation' 13823
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_french_fr

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 113.26 MiB

  • حجم مجموعة البيانات : 522.28 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 12.731
'train' 44556
'validation' 6،364
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'fr': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'fr': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / الاب نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / الاب نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_german_de

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 102.65 MiB

  • حجم مجموعة البيانات : 452.46 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 11669
'train' 40839
'validation' 5833
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'de': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'de': Text(shape=(), dtype=string),
       
'en': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / de نص سلسلة
source_aligned / en نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / de نص سلسلة
target_aligned / en نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_hindi_hi

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 20.07 MiB

  • حجم مجموعة البيانات : 138.06 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،984
'train' 6942
'validation' 991
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'hi': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'hi': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / مرحبا نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / مرحبا نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_indonesian_id

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 80.08 MiB

  • حجم مجموعة البيانات : 370.63 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 9497
'train' 33237
'validation' 4،747
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'id': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'id': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / id نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / id نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_italian_it

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 84.80 MiB

  • حجم مجموعة البيانات : 374.40 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 10189
'train' 35661
'validation' 5،093
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'it': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'it': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / ذلك نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / ذلك نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_japanese_ja

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 21.75 MiB

  • حجم مجموعة البيانات : 103.19 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 2،530
'train' 8،853
'validation' 1،264
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ja': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ja': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / ja نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / ja نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_korean_ko

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 22.26 MiB

  • حجم مجموعة البيانات : 102.35 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 2436
'train' 8.524
'validation' 1،216
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ko': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ko': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / كو نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / كو نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_portuguese_pt

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 131.17 MiB

  • حجم مجموعة البيانات : 570.46 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 16331
'train' 57159
'validation' 8165
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'pt': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'pt': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / pt نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / نقطة نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_russian_ru

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 101.36 MiB

  • حجم مجموعة البيانات : 564.69 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 10580
'train' 37،028
'validation' 5288
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ru': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'ru': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / رو نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / ru نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_spanish_es

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 189.06 MiB

  • حجم مجموعة البيانات : 849.75 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 22،632
'train' 79212
'validation' 11.316
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'es': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'es': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / es نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / es نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_thai_th

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 28.60 MiB

  • حجم مجموعة البيانات : 193.77 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 2950
'train' 10،325
'validation' 1،475
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'th': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'th': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / th نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / th نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_turkish_tr

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 6.73 MiB

  • حجم مجموعة البيانات : 30.75 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 900
'train' 3،148
'validation' 449
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'tr': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'tr': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / tr نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / tr نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."

جوهرة / wiki_lingua_vietnamese_vi

  • وصف التكوين : Wikilingua عبارة عن مجموعة بيانات واسعة النطاق ومتعددة اللغات لتقييم أنظمة التلخيص التجريدي متعدد اللغات ..

  • حجم التحميل : 36.27 MiB

  • حجم مجموعة البيانات : 179.77 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 3917
'train' 13707
'validation' 1957
  • هيكل الميزة :
FeaturesDict({
   
'gem_id': string,
   
'gem_parent_id': string,
   
'references': Sequence(string),
   
'source': string,
   
'source_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'vi': Text(shape=(), dtype=string),
   
}),
   
'target': string,
   
'target_aligned': Translation({
       
'en': Text(shape=(), dtype=string),
       
'vi': Text(shape=(), dtype=string),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
gem_id موتر سلسلة
gem_parent_id موتر سلسلة
المراجع تسلسل (موتر) (لا أحد،) سلسلة
مصدر موتر سلسلة
source_aligned ترجمة
source_aligned / en نص سلسلة
source_aligned / سادسا نص سلسلة
استهداف موتر سلسلة
target_aligned ترجمة
target_aligned / en نص سلسلة
target_aligned / السادس نص سلسلة
  • الاقتباس :
@inproceedings{ladhak-wiki-2020,
title
=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author
={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle
={Findings of EMNLP, 2020},
year
={2020}
}
@article{gehrmann2021gem,
  author    
= {Sebastian Gehrmann and
               
Tosin P. Adewumi and
               
Karmanya Aggarwal and
               
Pawan Sasanka Ammanamanchi and
               
Aremu Anuoluwapo and
               
Antoine Bosselut and
               
Khyathi Raghavi Chandu and
               
Miruna{-}Adriana Clinciu and
               
Dipanjan Das and
               
Kaustubh D. Dhole and
               
Wanyu Du and
               
Esin Durmus and
               
Ondrej Dusek and
               
Chris Emezue and
               
Varun Gangal and
               
Cristina Garbacea and
               
Tatsunori Hashimoto and
               
Yufang Hou and
               
Yacine Jernite and
               
Harsh Jhamtani and
               
Yangfeng Ji and
               
Shailza Jolly and
               
Dhruv Kumar and
               
Faisal Ladhak and
               
Aman Madaan and
               
Mounica Maddela and
               
Khyati Mahajan and
               
Saad Mahamood and
               
Bodhisattwa Prasad Majumder and
               
Pedro Henrique Martins and
               
Angelina McMillan{-}Major and
               
Simon Mille and
               
Emiel van Miltenburg and
               
Moin Nadeem and
               
Shashi Narayan and
               
Vitaly Nikolaev and
               
Rubungo Andre Niyongabo and
               
Salomey Osei and
               
Ankur P. Parikh and
               
Laura Perez{-}Beltrachini and
               
Niranjan Ramesh Rao and
               
Vikas Raunak and
               
Juan Diego Rodriguez and
               
Sashank Santhanam and
               
Jo{\~{a} }o Sedoc and
               
Thibault Sellam and
               
Samira Shaikh and
               
Anastasia Shimorina and
               
Marco Antonio Sobrevilla Cabezudo and
               
Hendrik Strobelt and
               
Nishant Subramani and
               
Wei Xu and
               
Diyi Yang and
               
Akhila Yerukola and
               
Jiawei Zhou},
  title    
= {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
               
Metrics},
  journal  
= {CoRR},
  volume    
= {abs/2102.01672},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2102.01672},
  archivePrefix
= {arXiv},
  eprint    
= {2102.01672}
}

Note that each GEM dataset has its own citation. Please see the source to see
the correct citation
for each contained dataset."