- বর্ণনা :
বড় মুভি রিভিউ ডেটাসেট। এটি পূর্ববর্তী বেঞ্চমার্ক ডেটাসেটগুলির তুলনায় যথেষ্ট পরিমাণে বেশি ডেটা ধারণকারী বাইনারি সেন্টিমেন্ট শ্রেণীবিভাগের জন্য একটি ডেটাসেট। আমরা প্রশিক্ষণের জন্য 25,000টি অত্যন্ত পোলার মুভি পর্যালোচনার একটি সেট এবং 25,000টি পরীক্ষার জন্য প্রদান করি। পাশাপাশি ব্যবহারের জন্য অতিরিক্ত লেবেলবিহীন ডেটা রয়েছে।
সোর্স কোড :
tfds.datasets.imdb_reviews.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): নতুন স্প্লিট API ( https://tensorflow.org/datasets/splits )
-
ডাউনলোড সাইজ :
80.23 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ২৫,০০০ |
'train' | ২৫,০০০ |
'unsupervised' | 50,000 |
তত্ত্বাবধানে থাকা কীগুলি (
as_supervised
doc হিসাবে):('text', 'label')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : প্লেইন টেক্সট
ডেটাসেটের আকার :
129.83 MiB
বৈশিষ্ট্য গঠন :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
লেবেল | ক্লাসলেবেল | int64 | ||
পাঠ্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
imdb_reviews/bytes
কনফিগার বিবরণ :
tfds.deprecated.text.ByteTextEncoder
এর সাথে বাইট-স্তরের পাঠ্য এনকোডিং ব্যবহার করেডেটাসেটের আকার :
129.88 MiB
বৈশিষ্ট্য গঠন :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
লেবেল | ক্লাসলেবেল | int64 | ||
পাঠ্য | পাঠ্য | (কোনটিই নয়,) | int64 |
- উদাহরণ ( tfds.as_dataframe ):
imdb_reviews/subwords8k
কনফিগারের বিবরণ : 8k ভোকাব সাইজের সাথে
tfds.deprecated.text.SubwordTextEncoder
ব্যবহার করেডেটাসেটের আকার :
54.72 MiB
বৈশিষ্ট্য গঠন :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
লেবেল | ক্লাসলেবেল | int64 | ||
পাঠ্য | পাঠ্য | (কোনটিই নয়,) | int64 |
- উদাহরণ ( tfds.as_dataframe ):
imdb_reviews/subwords32k
কনফিগারের বিবরণ : 32k ভোকাব সাইজ সহ
tfds.deprecated.text.SubwordTextEncoder
ব্যবহার করেডেটাসেটের আকার :
50.33 MiB
বৈশিষ্ট্য গঠন :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
লেবেল | ক্লাসলেবেল | int64 | ||
পাঠ্য | পাঠ্য | (কোনটিই নয়,) | int64 |
- উদাহরণ ( tfds.as_dataframe ):