עמוד 19

  • תיאור :

מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו כפול ממדד Billion Word ומכיל מסמכים שאורכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.

ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (book_id, short_book_title, publication_date, book_link).

לְפַצֵל דוגמאות
'test' 100
'train' 28,602
'validation' 50
  • מבנה תכונה :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
book_id מוֹתֵחַ int32
ספר_קישור מוֹתֵחַ חוּט
ספר_טקסט טֶקסט חוּט
כותרת הספר מוֹתֵחַ חוּט
תאריך פרסום מוֹתֵחַ חוּט
  • ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • תיאור :

מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו כפול ממדד Billion Word ומכיל מסמכים שאורכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.

ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (book_id, short_book_title, publication_date, book_link).

לְפַצֵל דוגמאות
'test' 100
'train' 28,602
'validation' 50
  • מבנה תכונה :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
book_id מוֹתֵחַ int32
ספר_קישור מוֹתֵחַ חוּט
ספר_טקסט טֶקסט חוּט
כותרת הספר מוֹתֵחַ חוּט
תאריך פרסום מוֹתֵחַ חוּט
  • ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}