imdb_reviews

  • תיאור :

ערכת סקירת סרטים גדולה. זהו מערך נתונים לסיווג סנטימנט בינארי המכיל הרבה יותר נתונים מאשר מערכי נתונים קודמים. אנו מספקים סט של 25,000 ביקורות סרטים קוטביים להדרכה, ו-25,000 לבדיקות. ישנם נתונים נוספים ללא תווית לשימוש גם כן.

לְפַצֵל דוגמאות
'test' 25,000
'train' 25,000
'unsupervised' 50,000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (תצורת ברירת המחדל)

  • תיאור תצורה : טקסט רגיל

  • גודל ערכת נתונים : 129.83 MiB

  • מבנה תכונה :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תווית ClassLabel int64
טֶקסט טֶקסט חוּט

imdb_reviews/bytes

  • תיאור תצורה : משתמש בקידוד טקסט ברמת בייט עם tfds.deprecated.text.ByteTextEncoder

  • גודל ערכת נתונים : 129.88 MiB

  • מבנה תכונה :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תווית ClassLabel int64
טֶקסט טֶקסט (אף אחד,) int64

imdb_reviews/subwords8k

  • תיאור תצורה : משתמש ב- tfds.deprecated.text.SubwordTextEncoder עם גודל ווקאב של 8k

  • גודל מערך נתונים : 54.72 MiB

  • מבנה תכונה :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תווית ClassLabel int64
טֶקסט טֶקסט (אף אחד,) int64

imdb_reviews/subwords32k

  • תיאור תצורה : משתמש ב- tfds.deprecated.text.SubwordTextEncoder עם גודל ווקאב של 32k

  • גודל ערכת נתונים : 50.33 MiB

  • מבנה תכונה :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תווית ClassLabel int64
טֶקסט טֶקסט (אף אחד,) int64