الصفحة 19

  • الوصف :

تحتوي مجموعة البيانات هذه على معيار PG-19 لنمذجة اللغة. وهو يتضمن مجموعة من الكتب المستخرجة من مشروع كتب مشروع جوتنبرج ( https://www.gutenberg.org ) ، والتي تم نشرها قبل عام 1919. كما تحتوي على بيانات وصفية لعناوين الكتب وتواريخ النشر. يتجاوز حجم PG-19 ضعف حجم معيار Billion Word ويحتوي على مستندات أطول بمقدار 20 مرة ، في المتوسط ​​، من معيار WikiText لنمذجة اللغة طويلة المدى.

يتم تقسيم الكتب إلى مجموعة قطار والتحقق من الصحة والاختبار. يتم تخزين البيانات الوصفية للكتب في metadata.csv الذي يحتوي على (book_id ، short_book_title ، تاريخ النشر ، رابط_الكتب).

انشق، مزق أمثلة
'test' 100
'train' 28602
'validation' 50
  • هيكل الميزة :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_الكتب موتر int32
رابط_الكتب موتر سلسلة
book_text نص سلسلة
عنوان كتاب موتر سلسلة
تاريخ النشر موتر سلسلة
  • الاقتباس :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}
،

  • الوصف :

تحتوي مجموعة البيانات هذه على معيار PG-19 لنمذجة اللغة. وهو يتضمن مجموعة من الكتب المستخرجة من مشروع كتب مشروع جوتنبرج ( https://www.gutenberg.org ) ، والتي تم نشرها قبل عام 1919. كما تحتوي على بيانات وصفية لعناوين الكتب وتواريخ النشر. يتجاوز حجم PG-19 ضعف حجم معيار Billion Word ويحتوي على مستندات أطول بمقدار 20 مرة ، في المتوسط ​​، من معيار WikiText لنمذجة اللغة طويلة المدى.

يتم تقسيم الكتب إلى مجموعة قطار والتحقق من الصحة والاختبار. يتم تخزين البيانات الوصفية للكتب في metadata.csv الذي يحتوي على (book_id ، short_book_title ، تاريخ النشر ، رابط_الكتب).

انشق، مزق أمثلة
'test' 100
'train' 28602
'validation' 50
  • هيكل الميزة :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_الكتب موتر int32
رابط_الكتب موتر سلسلة
book_text نص سلسلة
عنوان كتاب موتر سلسلة
تاريخ النشر موتر سلسلة
  • الاقتباس :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}