- תיאור :
מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו כפול ממדד Billion Word ומכיל מסמכים שאורכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.
ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (book_id, short_book_title, publication_date, book_link).
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/deepmind/pg19
קוד מקור :
tfds.datasets.pg19.Builder
גרסאות :
-
0.1.1
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
10.94 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- מבנה תכונה :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
book_id | מוֹתֵחַ | int32 | ||
ספר_קישור | מוֹתֵחַ | חוּט | ||
ספר_טקסט | טֶקסט | חוּט | ||
כותרת הספר | מוֹתֵחַ | חוּט | ||
תאריך פרסום | מוֹתֵחַ | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - תיאור :
מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו כפול ממדד Billion Word ומכיל מסמכים שאורכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.
ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (book_id, short_book_title, publication_date, book_link).
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/deepmind/pg19
קוד מקור :
tfds.datasets.pg19.Builder
גרסאות :
-
0.1.1
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
10.94 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- מבנה תכונה :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
book_id | מוֹתֵחַ | int32 | ||
ספר_קישור | מוֹתֵחַ | חוּט | ||
ספר_טקסט | טֶקסט | חוּט | ||
כותרת הספר | מוֹתֵחַ | חוּט | ||
תאריך פרסום | מוֹתֵחַ | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}