- विवरण :
Google RefExp डेटासेट छवियों में वस्तुओं के टेक्स्ट विवरण का एक संग्रह है जो सार्वजनिक रूप से उपलब्ध MS-COCO डेटासेट पर निर्मित होता है। जबकि MS-COCO में इमेज कैप्शन पूरी इमेज पर लागू होता है, यह डेटासेट टेक्स्ट डिस्क्रिप्शन पर केंद्रित होता है जो किसी इमेज के भीतर किसी एक ऑब्जेक्ट या क्षेत्र को विशिष्ट रूप से पहचानने की अनुमति देता है। इस पेपर में अधिक विवरण देखें: असंदिग्ध वस्तु विवरणों की उत्पत्ति और समझ।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
स्रोत कोड :
tfds.vision_language.gref.Grefसंस्करण :
-
1.0.0(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown sizeडेटासेट का आकार :
4.60 GiBमैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/) में डाउनलोड करना होगा:
COCO के साथ संरेखित प्रारूप में डेटा को डाउनलोड और प्री-प्रोसेस करने के लिए https://github.com/mjhucla/Google_Refexp_toolbox पर दिए गए निर्देशों का पालन करें। निर्देशिका में 2 फ़ाइलें और एक फ़ोल्डर है:google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
कोको_ट्रेन2014/
Coco_train2014 फ़ोल्डर में सभी COCO 2014 प्रशिक्षण चित्र शामिल हैं।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'train' | 24,698 |
'validation' | 4,650 |
- फ़ीचर संरचना :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
| छवि/आईडी | टेन्सर | int64 | ||
| वस्तुओं | क्रम | |||
| वस्तुओं / क्षेत्र | टेन्सर | int64 | ||
| ऑब्जेक्ट्स/बीबॉक्स | बीबॉक्स फीचर | (4,) | फ्लोट32 | |
| वस्तुओं/आईडी | टेन्सर | int64 | ||
| ऑब्जेक्ट्स / लेबल | टेन्सर | int64 | ||
| ऑब्जेक्ट्स/लेबल_नाम | क्लासलेबल | int64 | ||
| ऑब्जेक्ट्स/रेफेक्स | क्रम | |||
| ऑब्जेक्ट्स/रेफएक्सपी/रॉ | मूलपाठ | डोरी | ||
| ऑब्जेक्ट्स/रेफेक्स/संदर्भ | मूलपाठ | डोरी | ||
| ऑब्जेक्ट्स/रेफएक्सपी/refexp_id | टेन्सर | int64 | ||
| ऑब्जेक्ट्स/रेफएक्सपी/टोकन | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ):

- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}