- תיאור :
ערכת סקירת סרטים גדולה. זהו מערך נתונים לסיווג סנטימנט בינארי המכיל הרבה יותר נתונים מאשר מערכי נתונים קודמים. אנו מספקים סט של 25,000 ביקורות סרטים קוטביים להדרכה, ו-25,000 לבדיקות. ישנם נתונים נוספים ללא תווית לשימוש גם כן.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.imdb_reviews.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): API חדש מפוצל ( https://tensorflow.org/datasets/splits )
-
גודל הורדה :
80.23 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 25,000 |
'train' | 25,000 |
'unsupervised' | 50,000 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'label')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (תצורת ברירת המחדל)
תיאור תצורה : טקסט רגיל
גודל ערכת נתונים :
129.83 MiB
מבנה תכונה :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תווית | ClassLabel | int64 | ||
טֶקסט | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
imdb_reviews/bytes
תיאור תצורה : משתמש בקידוד טקסט ברמת בייט עם
tfds.deprecated.text.ByteTextEncoder
גודל ערכת נתונים :
129.88 MiB
מבנה תכונה :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תווית | ClassLabel | int64 | ||
טֶקסט | טֶקסט | (אף אחד,) | int64 |
- דוגמאות ( tfds.as_dataframe ):
imdb_reviews/subwords8k
תיאור תצורה : משתמש ב-
tfds.deprecated.text.SubwordTextEncoder
עם גודל ווקאב של 8kגודל מערך נתונים :
54.72 MiB
מבנה תכונה :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תווית | ClassLabel | int64 | ||
טֶקסט | טֶקסט | (אף אחד,) | int64 |
- דוגמאות ( tfds.as_dataframe ):
imdb_reviews/subwords32k
תיאור תצורה : משתמש ב-
tfds.deprecated.text.SubwordTextEncoder
עם גודל ווקאב של 32kגודל ערכת נתונים :
50.33 MiB
מבנה תכונה :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תווית | ClassLabel | int64 | ||
טֶקסט | טֶקסט | (אף אחד,) | int64 |
- דוגמאות ( tfds.as_dataframe ):