imdb_reviews

  • বর্ণনা :

বড় মুভি রিভিউ ডেটাসেট। এটি পূর্ববর্তী বেঞ্চমার্ক ডেটাসেটগুলির তুলনায় যথেষ্ট পরিমাণে বেশি ডেটা ধারণকারী বাইনারি সেন্টিমেন্ট শ্রেণীবিভাগের জন্য একটি ডেটাসেট। আমরা প্রশিক্ষণের জন্য 25,000টি অত্যন্ত পোলার মুভি পর্যালোচনার একটি সেট এবং 25,000টি পরীক্ষার জন্য প্রদান করি। পাশাপাশি ব্যবহারের জন্য অতিরিক্ত লেবেলবিহীন ডেটা রয়েছে।

বিভক্ত উদাহরণ
'test' ২৫,০০০
'train' ২৫,০০০
'unsupervised' 50,000
  • তত্ত্বাবধানে থাকা কীগুলি ( as_supervised doc হিসাবে): ('text', 'label')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : প্লেইন টেক্সট

  • ডেটাসেটের আকার : 129.83 MiB

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লেবেল ক্লাসলেবেল int64
পাঠ্য পাঠ্য স্ট্রিং

imdb_reviews/bytes

  • কনফিগার বিবরণ : tfds.deprecated.text.ByteTextEncoder এর সাথে বাইট-স্তরের পাঠ্য এনকোডিং ব্যবহার করে

  • ডেটাসেটের আকার : 129.88 MiB

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লেবেল ক্লাসলেবেল int64
পাঠ্য পাঠ্য (কোনটিই নয়,) int64

imdb_reviews/subwords8k

  • কনফিগারের বিবরণ : 8k ভোকাব সাইজের সাথে tfds.deprecated.text.SubwordTextEncoder ব্যবহার করে

  • ডেটাসেটের আকার : 54.72 MiB

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লেবেল ক্লাসলেবেল int64
পাঠ্য পাঠ্য (কোনটিই নয়,) int64

imdb_reviews/subwords32k

  • কনফিগারের বিবরণ : 32k ভোকাব সাইজ সহ tfds.deprecated.text.SubwordTextEncoder ব্যবহার করে

  • ডেটাসেটের আকার : 50.33 MiB

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লেবেল ক্লাসলেবেল int64
পাঠ্য পাঠ্য (কোনটিই নয়,) int64