wit_kaggle

  • תיאור :

ויקיפדיה - תחרות התאמת קאגל לתמונה/כיתוב.

תחרות זו מאורגנת על ידי צוות המחקר בקרן ויקימדיה בשיתוף עם Google Research וכמה משתפי פעולה חיצוניים. תחרות זו מבוססת על מערך הנתונים של WIT שפורסם על ידי Google Research כמפורט במאמר SIGIR זה.

בתחרות זו, תבנה מודל שמחזיר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, תלמד את המודל שלך לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה. אם תצליח, אתה תתרום לנגישות של האנציקלופדיה המקוונת הגדולה ביותר. מיליוני הקוראים והעורכים של ויקיפדיה יוכלו להבין, לחפש ולתאר מדיה בקלות רבה יותר. כתוצאה מכך, תתרום למודל פתוח לשיפור הלמידה לכולם.

  • דף הבית : https://www.kaggle.com/c/wikipedia-image-caption/code

  • קוד מקור : tfds.vision_language.wit_kaggle.WitKaggle

  • גרסאות :

    • 1.0.0 : שחרור ראשוני. הוא מספק את מערכי הרכבות והמבחן מהתחרות של ויקיפדיה - תמונה/כתוביות התאמת Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      מטרת התחרות היא לבנות מודל שאחזר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, המודל צריך להיות מאומן לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה.

      שימו לב שהמהדורה הזו אינה מספקת את האמת הבסיסית לסט המבחן, מכיוון שהיא עדיין לא סופקה על ידי תחרות Kaggle.

      שימו לב שלא לכל תצפיות האימון יש נתוני תמונה מתאימים. התמונות שפורסמו אינן כוללות את כל התמונות המכילות בני אדם. עבור דוגמאות שאינן משויכות לנתוני תמונה, נעשה שימוש בתכונות התמונה הבאות: image היא תמונה ריקה מקודדת בתים-64, embedding היא וקטור של 2048 אפסים.

      ניתן לטעון את הדוגמאות ששוחררו לתחרות בתור: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : בצע אופטימיזציה של צינור Beam כדי למנוע מתקשים, תוך התעלמות משורות ללא כתובת אתר של תמונה. כמו כן הוסיפו עוד מונים קרן.

    • 1.0.2 (ברירת מחדל): מתקן ניתוח של שדות בוליאניים.

  • גודל הורדה : Unknown size

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    בהתאם לתצורה שנקראת, manual_dir אמור להכיל חלק מתיקיות המשנה הבאות:

    • רכבת
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • תמונה_פיקסלים/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • מִבְחָן
    • test.tsv.zip
    • image_data_test/
      • תמונה_פיקסלים/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

יש צורך בהרשמה בכתובת https://www.kaggle.com/c/wikipedia-image-caption/data כדי לקבל את הקישורים להורדת מערך הנתונים.

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • מפתחות בפיקוח (ראה as_supervised ): ('image_url', 'caption_title_and_reference_description')

  • ציטוט :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (תצורת ברירת המחדל)

  • תיאור תצורה : דוגמאות הדרכה לתחרות התאמת ויקיפדיה-תמונה/כתוביות.

  • גודל מערך נתונים : 1.16 TiB

  • פיצולים :

לְפַצֵל דוגמאות
'train_with_extended_features' 37,046,386
  • מבנה תכונה :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
attribution_passes_lang_id מוֹתֵחַ bool
caption_alt_text_description טֶקסט חוּט
caption_attribution_description טֶקסט חוּט
caption_reference_description טֶקסט חוּט
caption_title_and_reference_description טֶקסט חוּט
context_page_description טֶקסט חוּט
context_section_description טֶקסט חוּט
הטבעה מוֹתֵחַ (2048,) לצוף32
hierarchical_section_title טֶקסט חוּט
תמונה תמונה (אין, אין, 3) uint8
כתובת אתר של תמונה טֶקסט חוּט
is_main_image מוֹתֵחַ bool
שפה טֶקסט חוּט
metadata_url טֶקסט חוּט
סוג_מימה טֶקסט חוּט
גובה_מקורי מוֹתֵחַ int32
רוחב_מקורי מוֹתֵחַ int32
דף_שונה_לאחרונה מוֹתֵחַ bool
כותרת העמוד טֶקסט חוּט
page_url טֶקסט חוּט
section_title טֶקסט חוּט

רְאִיָה

wit_kaggle/test_without_gold

  • תיאור תצורה : דוגמאות מבחן (ללא תשובות זהב) לתחרות התאמת ויקיפדיה-תמונה/כתוביות.

  • גודל מערך נתונים : 3.37 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test_without_gold' 92,366
  • מבנה תכונה :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
caption_title_and_reference_description טֶקסט חוּט
הטבעה מוֹתֵחַ (2048,) לצוף32
תְעוּדַת זֶהוּת טֶקסט חוּט
תמונה תמונה (אין, אין, 3) uint8
כתובת אתר של תמונה טֶקסט חוּט
metadata_url טֶקסט חוּט

רְאִיָה

,

  • תיאור :

ויקיפדיה - תחרות התאמת קאגל לתמונה/כיתוב.

תחרות זו מאורגנת על ידי צוות המחקר בקרן ויקימדיה בשיתוף עם Google Research וכמה משתפי פעולה חיצוניים. תחרות זו מבוססת על מערך הנתונים של WIT שפורסם על ידי Google Research כמפורט במאמר SIGIR זה.

בתחרות זו, תבנה מודל שמחזיר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, תלמד את המודל שלך לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה. אם תצליח, אתה תתרום לנגישות של האנציקלופדיה המקוונת הגדולה ביותר. מיליוני הקוראים והעורכים של ויקיפדיה יוכלו להבין, לחפש ולתאר מדיה בקלות רבה יותר. כתוצאה מכך, תתרום למודל פתוח לשיפור הלמידה לכולם.

  • דף הבית : https://www.kaggle.com/c/wikipedia-image-caption/code

  • קוד מקור : tfds.vision_language.wit_kaggle.WitKaggle

  • גרסאות :

    • 1.0.0 : שחרור ראשוני. הוא מספק את מערכי הרכבות והמבחן מהתחרות של ויקיפדיה - תמונה/כתוביות התאמת Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      מטרת התחרות היא לבנות מודל שאחזר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, המודל צריך להיות מאומן לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה.

      שימו לב שהמהדורה הזו אינה מספקת את האמת הבסיסית לסט המבחן, מכיוון שהיא עדיין לא סופקה על ידי תחרות Kaggle.

      שימו לב שלא לכל תצפיות האימון יש נתוני תמונה מתאימים. התמונות שפורסמו אינן כוללות את כל התמונות המכילות בני אדם. עבור דוגמאות שאינן משויכות לנתוני תמונה, נעשה שימוש בתכונות התמונה הבאות: image היא תמונה ריקה מקודדת בתים-64, embedding היא וקטור של 2048 אפסים.

      ניתן לטעון את הדוגמאות ששוחררו לתחרות בתור: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : בצע אופטימיזציה של צינור Beam כדי למנוע מתקשים, תוך התעלמות משורות ללא כתובת אתר של תמונה. כמו כן הוסיפו עוד מונים קרן.

    • 1.0.2 (ברירת מחדל): מתקן ניתוח של שדות בוליאניים.

  • גודל הורדה : Unknown size

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    בהתאם לתצורה שנקראת, manual_dir אמור להכיל חלק מתיקיות המשנה הבאות:

    • רכבת
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • תמונה_פיקסלים/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • מִבְחָן
    • test.tsv.zip
    • image_data_test/
      • תמונה_פיקסלים/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

יש צורך בהרשמה בכתובת https://www.kaggle.com/c/wikipedia-image-caption/data כדי לקבל את הקישורים להורדת מערך הנתונים.

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • מפתחות בפיקוח (ראה as_supervised ): ('image_url', 'caption_title_and_reference_description')

  • ציטוט :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (תצורת ברירת המחדל)

  • תיאור תצורה : דוגמאות הדרכה לתחרות התאמת ויקיפדיה-תמונה/כתוביות.

  • גודל מערך נתונים : 1.16 TiB

  • פיצולים :

לְפַצֵל דוגמאות
'train_with_extended_features' 37,046,386
  • מבנה תכונה :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
attribution_passes_lang_id מוֹתֵחַ bool
caption_alt_text_description טֶקסט חוּט
caption_attribution_description טֶקסט חוּט
caption_reference_description טֶקסט חוּט
caption_title_and_reference_description טֶקסט חוּט
context_page_description טֶקסט חוּט
context_section_description טֶקסט חוּט
הטבעה מוֹתֵחַ (2048,) לצוף32
hierarchical_section_title טֶקסט חוּט
תמונה תמונה (אין, אין, 3) uint8
כתובת אתר של תמונה טֶקסט חוּט
is_main_image מוֹתֵחַ bool
שפה טֶקסט חוּט
metadata_url טֶקסט חוּט
סוג_מימה טֶקסט חוּט
גובה_מקורי מוֹתֵחַ int32
רוחב_מקורי מוֹתֵחַ int32
דף_שונה_לאחרונה מוֹתֵחַ bool
כותרת העמוד טֶקסט חוּט
page_url טֶקסט חוּט
section_title טֶקסט חוּט

רְאִיָה

wit_kaggle/test_without_gold

  • תיאור תצורה : דוגמאות מבחן (ללא תשובות זהב) לתחרות התאמת ויקיפדיה-תמונה/כתוביות.

  • גודל מערך נתונים : 3.37 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test_without_gold' 92,366
  • מבנה תכונה :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
caption_title_and_reference_description טֶקסט חוּט
הטבעה מוֹתֵחַ (2048,) לצוף32
תְעוּדַת זֶהוּת טֶקסט חוּט
תמונה תמונה (אין, אין, 3) uint8
כתובת אתר של תמונה טֶקסט חוּט
metadata_url טֶקסט חוּט

רְאִיָה