pg19

  • توضیحات :

این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این شامل مجموعه‌ای از کتاب‌های استخراج‌شده از پروژه کتاب‌های پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شده‌اند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. PG-19 بیش از دو برابر اندازه معیار Billion Word است و حاوی اسنادی است که به طور متوسط ​​20 برابر طولانی تر از معیار مدل سازی زبان برد بلند WikiText هستند.

کتاب ها به یک مجموعه قطار، اعتبار سنجی و تست تقسیم می شوند. فراداده کتاب‌ها در metadata.csv ذخیره می‌شود که حاوی (book_id، short_book_title، publication_date، book_link) است.

شکاف مثال ها
'test' 100
'train' 28602
'validation' 50
  • ساختار ویژگی :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
book_id تانسور int32
پیوند_کتاب تانسور رشته
کتاب_متن متن رشته
عنوان کتاب تانسور رشته
تاریخ انتشار تانسور رشته
  • نقل قول :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
،

  • توضیحات :

این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این شامل مجموعه‌ای از کتاب‌های استخراج‌شده از پروژه کتاب‌های پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شده‌اند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. PG-19 بیش از دو برابر اندازه معیار Billion Word است و حاوی اسنادی است که به طور متوسط ​​20 برابر طولانی تر از معیار مدل سازی زبان برد بلند WikiText هستند.

کتاب ها به یک مجموعه قطار، اعتبار سنجی و تست تقسیم می شوند. فراداده کتاب‌ها در metadata.csv ذخیره می‌شود که حاوی (book_id، short_book_title، publication_date، book_link) است.

شکاف مثال ها
'test' 100
'train' 28602
'validation' 50
  • ساختار ویژگی :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
book_id تانسور int32
پیوند_کتاب تانسور رشته
کتاب_متن متن رشته
عنوان کتاب تانسور رشته
تاریخ انتشار تانسور رشته
  • نقل قول :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}