- תיאור :
ויקיפדיה - תחרות התאמת קאגל לתמונה/כיתוב.
תחרות זו מאורגנת על ידי צוות המחקר בקרן ויקימדיה בשיתוף עם Google Research וכמה משתפי פעולה חיצוניים. תחרות זו מבוססת על מערך הנתונים של WIT שפורסם על ידי Google Research כמפורט במאמר SIGIR זה.
בתחרות זו, תבנה מודל שמחזיר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, תלמד את המודל שלך לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה. אם תצליח, אתה תתרום לנגישות של האנציקלופדיה המקוונת הגדולה ביותר. מיליוני הקוראים והעורכים של ויקיפדיה יוכלו להבין, לחפש ולתאר מדיה בקלות רבה יותר. כתוצאה מכך, תתרום למודל פתוח לשיפור הלמידה לכולם.
דף הבית : https://www.kaggle.com/c/wikipedia-image-caption/code
קוד מקור :
tfds.vision_language.wit_kaggle.WitKaggle
גרסאות :
1.0.0
: שחרור ראשוני. הוא מספק את מערכי הרכבות והמבחן מהתחרות של ויקיפדיה - תמונה/כתוביות התאמת Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).מטרת התחרות היא לבנות מודל שאחזר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, המודל צריך להיות מאומן לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה.
שימו לב שהמהדורה הזו אינה מספקת את האמת הבסיסית לסט המבחן, מכיוון שהיא עדיין לא סופקה על ידי תחרות Kaggle.
שימו לב שלא לכל תצפיות האימון יש נתוני תמונה מתאימים. התמונות שפורסמו אינן כוללות את כל התמונות המכילות בני אדם. עבור דוגמאות שאינן משויכות לנתוני תמונה, נעשה שימוש בתכונות התמונה הבאות:
image
היא תמונה ריקה מקודדת בתים-64,embedding
היא וקטור של 2048 אפסים.ניתן לטעון את הדוגמאות ששוחררו לתחרות בתור:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: בצע אופטימיזציה של צינור Beam כדי למנוע מתקשים, תוך התעלמות משורות ללא כתובת אתר של תמונה. כמו כן הוסיפו עוד מונים קרן.1.0.2
(ברירת מחדל): מתקן ניתוח של שדות בוליאניים.
גודל הורדה :
Unknown size
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
בהתאם לתצורה שנקראת, manual_dir אמור להכיל חלק מתיקיות המשנה הבאות:- רכבת
- train-{0000x}-of-00005.tsv.zip
- image_data_train/
- תמונה_פיקסלים/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- מִבְחָן
- test.tsv.zip
- image_data_test/
- תמונה_פיקסלים/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
יש צורך בהרשמה בכתובת https://www.kaggle.com/c/wikipedia-image-caption/data כדי לקבל את הקישורים להורדת מערך הנתונים.
שמירה אוטומטית במטמון ( תיעוד ): לא
מפתחות בפיקוח (ראה
as_supervised
):('image_url', 'caption_title_and_reference_description')
ציטוט :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (תצורת ברירת המחדל)
תיאור תצורה : דוגמאות הדרכה לתחרות התאמת ויקיפדיה-תמונה/כתוביות.
גודל מערך נתונים :
1.16 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train_with_extended_features' | 37,046,386 |
- מבנה תכונה :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
attribution_passes_lang_id | מוֹתֵחַ | bool | ||
caption_alt_text_description | טֶקסט | חוּט | ||
caption_attribution_description | טֶקסט | חוּט | ||
caption_reference_description | טֶקסט | חוּט | ||
caption_title_and_reference_description | טֶקסט | חוּט | ||
context_page_description | טֶקסט | חוּט | ||
context_section_description | טֶקסט | חוּט | ||
הטבעה | מוֹתֵחַ | (2048,) | לצוף32 | |
hierarchical_section_title | טֶקסט | חוּט | ||
תמונה | תמונה | (אין, אין, 3) | uint8 | |
כתובת אתר של תמונה | טֶקסט | חוּט | ||
is_main_image | מוֹתֵחַ | bool | ||
שפה | טֶקסט | חוּט | ||
metadata_url | טֶקסט | חוּט | ||
סוג_מימה | טֶקסט | חוּט | ||
גובה_מקורי | מוֹתֵחַ | int32 | ||
רוחב_מקורי | מוֹתֵחַ | int32 | ||
דף_שונה_לאחרונה | מוֹתֵחַ | bool | ||
כותרת העמוד | טֶקסט | חוּט | ||
page_url | טֶקסט | חוּט | ||
section_title | טֶקסט | חוּט |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
תיאור תצורה : דוגמאות מבחן (ללא תשובות זהב) לתחרות התאמת ויקיפדיה-תמונה/כתוביות.
גודל מערך נתונים :
3.37 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test_without_gold' | 92,366 |
- מבנה תכונה :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
caption_title_and_reference_description | טֶקסט | חוּט | ||
הטבעה | מוֹתֵחַ | (2048,) | לצוף32 | |
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
תמונה | תמונה | (אין, אין, 3) | uint8 | |
כתובת אתר של תמונה | טֶקסט | חוּט | ||
metadata_url | טֶקסט | חוּט |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
- תיאור :
ויקיפדיה - תחרות התאמת קאגל לתמונה/כיתוב.
תחרות זו מאורגנת על ידי צוות המחקר בקרן ויקימדיה בשיתוף עם Google Research וכמה משתפי פעולה חיצוניים. תחרות זו מבוססת על מערך הנתונים של WIT שפורסם על ידי Google Research כמפורט במאמר SIGIR זה.
בתחרות זו, תבנה מודל שמחזיר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, תלמד את המודל שלך לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה. אם תצליח, אתה תתרום לנגישות של האנציקלופדיה המקוונת הגדולה ביותר. מיליוני הקוראים והעורכים של ויקיפדיה יוכלו להבין, לחפש ולתאר מדיה בקלות רבה יותר. כתוצאה מכך, תתרום למודל פתוח לשיפור הלמידה לכולם.
דף הבית : https://www.kaggle.com/c/wikipedia-image-caption/code
קוד מקור :
tfds.vision_language.wit_kaggle.WitKaggle
גרסאות :
1.0.0
: שחרור ראשוני. הוא מספק את מערכי הרכבות והמבחן מהתחרות של ויקיפדיה - תמונה/כתוביות התאמת Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).מטרת התחרות היא לבנות מודל שאחזר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, המודל צריך להיות מאומן לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה.
שימו לב שהמהדורה הזו אינה מספקת את האמת הבסיסית לסט המבחן, מכיוון שהיא עדיין לא סופקה על ידי תחרות Kaggle.
שימו לב שלא לכל תצפיות האימון יש נתוני תמונה מתאימים. התמונות שפורסמו אינן כוללות את כל התמונות המכילות בני אדם. עבור דוגמאות שאינן משויכות לנתוני תמונה, נעשה שימוש בתכונות התמונה הבאות:
image
היא תמונה ריקה מקודדת בתים-64,embedding
היא וקטור של 2048 אפסים.ניתן לטעון את הדוגמאות ששוחררו לתחרות בתור:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: בצע אופטימיזציה של צינור Beam כדי למנוע מתקשים, תוך התעלמות משורות ללא כתובת אתר של תמונה. כמו כן הוסיפו עוד מונים קרן.1.0.2
(ברירת מחדל): מתקן ניתוח של שדות בוליאניים.
גודל הורדה :
Unknown size
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
בהתאם לתצורה שנקראת, manual_dir אמור להכיל חלק מתיקיות המשנה הבאות:- רכבת
- train-{0000x}-of-00005.tsv.zip
- image_data_train/
- תמונה_פיקסלים/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- מִבְחָן
- test.tsv.zip
- image_data_test/
- תמונה_פיקסלים/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
יש צורך בהרשמה בכתובת https://www.kaggle.com/c/wikipedia-image-caption/data כדי לקבל את הקישורים להורדת מערך הנתונים.
שמירה אוטומטית במטמון ( תיעוד ): לא
מפתחות בפיקוח (ראה
as_supervised
):('image_url', 'caption_title_and_reference_description')
ציטוט :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (תצורת ברירת המחדל)
תיאור תצורה : דוגמאות הדרכה לתחרות התאמת ויקיפדיה-תמונה/כתוביות.
גודל מערך נתונים :
1.16 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train_with_extended_features' | 37,046,386 |
- מבנה תכונה :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
attribution_passes_lang_id | מוֹתֵחַ | bool | ||
caption_alt_text_description | טֶקסט | חוּט | ||
caption_attribution_description | טֶקסט | חוּט | ||
caption_reference_description | טֶקסט | חוּט | ||
caption_title_and_reference_description | טֶקסט | חוּט | ||
context_page_description | טֶקסט | חוּט | ||
context_section_description | טֶקסט | חוּט | ||
הטבעה | מוֹתֵחַ | (2048,) | לצוף32 | |
hierarchical_section_title | טֶקסט | חוּט | ||
תמונה | תמונה | (אין, אין, 3) | uint8 | |
כתובת אתר של תמונה | טֶקסט | חוּט | ||
is_main_image | מוֹתֵחַ | bool | ||
שפה | טֶקסט | חוּט | ||
metadata_url | טֶקסט | חוּט | ||
סוג_מימה | טֶקסט | חוּט | ||
גובה_מקורי | מוֹתֵחַ | int32 | ||
רוחב_מקורי | מוֹתֵחַ | int32 | ||
דף_שונה_לאחרונה | מוֹתֵחַ | bool | ||
כותרת העמוד | טֶקסט | חוּט | ||
page_url | טֶקסט | חוּט | ||
section_title | טֶקסט | חוּט |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
תיאור תצורה : דוגמאות מבחן (ללא תשובות זהב) לתחרות התאמת ויקיפדיה-תמונה/כתוביות.
גודל מערך נתונים :
3.37 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test_without_gold' | 92,366 |
- מבנה תכונה :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
caption_title_and_reference_description | טֶקסט | חוּט | ||
הטבעה | מוֹתֵחַ | (2048,) | לצוף32 | |
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
תמונה | תמונה | (אין, אין, 3) | uint8 | |
כתובת אתר של תמונה | טֶקסט | חוּט | ||
metadata_url | טֶקסט | חוּט |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):