xtreme_s

  • Описание :

FLEURS — это речевая версия эталонного теста машинного перевода FLORES, охватывающего 2000 n параллельных предложений на n = 102 языках. XTREME-S охватывает четыре семейства задач: распознавание речи, классификацию, преобразование речи в текст и поиск. Охватывая 102 языка из более чем 10 языковых семей, 3 различных предметных области и 4 группы задач, XTREME-S призван упростить оценку многоязычного представления речи, а также активизировать исследования в области обучения «универсальному» представлению речи.

В этой версии предоставляется только набор данных FLEURS, который охватывает распознавание речи и преобразование речи в текст.

  • Описание конфигурации : FLEURS — это речевая версия теста машинного перевода FLORES, охватывающая 2000 n параллельных предложений на n = 102 языках.

  • Домашняя страница : https://arxiv.org/abs/2205.12446

  • Исходный код : tfds.audio.xtreme_s.XtremeS

  • Версии :

    • 2.0.0 (по умолчанию): Первоначальный выпуск на TFDS, только для FLEURS. Назван в соответствии с версией 2.0.0 на Huggingface, которая имеет те же данные FLEURS ( https://huggingface.co/datasets/google/xtreme_s ).
  • Размер загрузки : Unknown size

  • Размер набора данных : Unknown size

  • Автокэширование ( документация ): неизвестно

  • Сплиты :

Расколоть Примеры
  • Структура функции :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'id': Scalar(shape=(), dtype=tf.int32),
    'lang_group_id': ClassLabel(shape=(), dtype=tf.int64, num_classes=7),
    'lang_id': ClassLabel(shape=(), dtype=tf.int64, num_classes=102),
    'language': Text(shape=(), dtype=tf.string),
    'num_samples': Scalar(shape=(), dtype=tf.int32),
    'path': tf.string,
    'raw_transcription': Text(shape=(), dtype=tf.string),
    'transcription': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
аудио Аудио (Никто,) tf.int64
Пол Метка класса tf.int64
я бы Скаляр tf.int32 Идентификатор исходного текста, согласованный для всех языков, чтобы сохранить n-сторонний параллелизм переводов. Поскольку каждая транскрипция может быть произнесена несколькими носителями, в каждом языке несколько примеров также будут иметь один и тот же идентификатор.
lang_group_id Метка класса tf.int64
lang_id Метка класса tf.int64
язык Текст tf.string Язык, закодированный строчными буквами, разделенный символом подчеркивания, вариант тега BCP-47.
num_samples Скаляр tf.int32 Общее количество кадров в аудио
дорожка Тензор tf.string
raw_transscription Текст tf.string Необработанная транскрипция из FLoRes.
транскрипция Текст tf.string Нормализованная транскрипция.
@article{fleurs2022arxiv,
  title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech},
  author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur},
  journal={arXiv preprint arXiv:2205.12446},
  url = {https://arxiv.org/abs/2205.12446},
  year = {2022},
}
@article{conneau2022xtreme,
  title={XTREME-S: Evaluating Cross-lingual Speech Representations},
  author={Conneau, Alexis and Bapna, Ankur and Zhang, Yu and Ma, Min and von Platen, Patrick and Lozhkov, Anton and Cherry, Colin and Jia, Ye and Rivera, Clara and Kale, Mihir and others},
  journal={arXiv preprint arXiv:2203.10752},
  year={2022}
}

xtreme_s/fleurs.af_za (конфигурация по умолчанию)

xtreme_s/fleurs.am_et

xtreme_s/fleurs.ar_eg

xtreme_s/fleurs.as_in

xtreme_s/fleurs.ast_es

xtreme_s/fleurs.az_az

xtreme_s/fleurs.be_by

xtreme_s/fleurs.bg_bg

xtreme_s/fleurs.bn_in

xtreme_s/fleurs.bs_ba

xtreme_s/fleurs.ca_es

xtreme_s/fleurs.ceb_ph

xtreme_s/fleurs.ckb_iq

xtreme_s/fleurs.cmn_hans_cn

xtreme_s/fleurs.cs_cz

xtreme_s/fleurs.cy_gb

xtreme_s/fleurs.da_dk

xtreme_s/fleurs.de_de

xtreme_s/fleurs.el_gr

xtreme_s/fleurs.en_us

xtreme_s/fleurs.es_419

xtreme_s/fleurs.et_ee

xtreme_s/fleurs.fa_ir

xtreme_s/fleurs.ff_sn

xtreme_s/fleurs.fi_fi

xtreme_s/fleurs.fil_ph

xtreme_s/fleurs.fr_fr

xtreme_s/fleurs.ga_ie

xtreme_s/fleurs.gl_es

xtreme_s/fleurs.gu_in

xtreme_s/fleurs.ha_ng

xtreme_s/fleurs.he_il

xtreme_s/fleurs.hi_in

xtreme_s/fleurs.hr_hr

xtreme_s/fleurs.hu_hu

xtreme_s/fleurs.hy_am

xtreme_s/fleurs.id_id

xtreme_s/fleurs.ig_ng

xtreme_s/fleurs.is_is

xtreme_s/fleurs.it_it

xtreme_s/fleurs.ja_jp

xtreme_s/fleurs.jv_id

xtreme_s/fleurs.ka_ge

xtreme_s/fleurs.kam_ke

xtreme_s/fleurs.kea_cv

xtreme_s/fleurs.kk_kz

xtreme_s/fleurs.km_kh

xtreme_s/fleurs.kn_in

xtreme_s/fleurs.ko_kr

xtreme_s/fleurs.ky_kg

xtreme_s/fleurs.lb_lu

xtreme_s/fleurs.lg_ug

xtreme_s/fleurs.ln_cd

xtreme_s/fleurs.lo_la

xtreme_s/fleurs.lt_lt

xtreme_s/fleurs.luo_ke

xtreme_s/fleurs.lv_lv

xtreme_s/fleurs.mi_nz

xtreme_s/fleurs.mk_mk

xtreme_s/fleurs.ml_in

xtreme_s/fleurs.mn_mn

xtreme_s/fleurs.mr_in

xtreme_s/fleurs.ms_my

xtreme_s/fleurs.mt_mt

xtreme_s/fleurs.my_mm

xtreme_s/fleurs.nb_no

xtreme_s/fleurs.ne_np

xtreme_s/fleurs.nl_nl

xtreme_s/fleurs.nso_za

xtreme_s/fleurs.ny_mw

xtreme_s/fleurs.oc_fr

xtreme_s/fleurs.om_et

xtreme_s/fleurs.or_in

xtreme_s/fleurs.pa_in

xtreme_s/fleurs.pl_pl

xtreme_s/fleurs.ps_af

xtreme_s/fleurs.pt_br

xtreme_s/fleurs.ro_ro

xtreme_s/fleurs.ru_ru

xtreme_s/fleurs.sd_in

xtreme_s/fleurs.sk_sk

xtreme_s/fleurs.sl_si

xtreme_s/fleurs.sn_zw

xtreme_s/fleurs.so_so

xtreme_s/fleurs.sr_rs

xtreme_s/fleurs.sv_se

xtreme_s/fleurs.sw_ke

xtreme_s/fleurs.ta_in

xtreme_s/fleurs.te_in

xtreme_s/fleurs.tg_tj

xtreme_s/fleurs.th_th

xtreme_s/fleurs.tr_tr

xtreme_s/fleurs.uk_ua

xtreme_s/fleurs.umb_ao

xtreme_s/fleurs.ur_pk

xtreme_s/fleurs.uz_uz

xtreme_s/fleurs.vi_vn

xtreme_s/fleurs.wo_sn

xtreme_s/fleurs.xh_za

xtreme_s/fleurs.yo_ng

xtreme_s/fleurs.yue_hant_hk

xtreme_s/fleurs.zu_za

xtreme_s/fleurs.all