টেলিয়াম

  • বর্ণনা :

TED-LIUM কর্পাস হল ইংরেজি ভাষার TED আলোচনা, ট্রান্সক্রিপশন সহ, নমুনা 16kHz এ। এটি প্রায় 118 ঘন্টা বক্তৃতা ধারণ করে।

FeaturesDict({
   
'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
'id': string,
   
'speaker_id': string,
   
'speech': Audio(shape=(None,), dtype=int64),
   
'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লিঙ্গ ক্লাসলেবেল int64
আইডি টেনসর স্ট্রিং
স্পিকার_আইডি টেনসর স্ট্রিং
বক্তৃতা শ্রুতি (কোনটিই নয়,) int64
পাঠ্য পাঠ্য স্ট্রিং
  • তত্ত্বাবধানে থাকা কী ( as_supervised doc ): ('speech', 'text')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@inproceedings{rousseau2012tedlium,
  title
={TED-LIUM: an Automatic Speech Recognition dedicated corpus},
  author
={Rousseau, Anthony and Del{\'e}glise, Paul and Est{\`e}ve, Yannick},
  booktitle={Conference on Language Resources and Evaluation (LREC)},
  pages={125--129},
  year={2012}
}

tedlium/release1 (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : TED-LIUM কর্পাস হল ইংরেজি ভাষার TED আলোচনা, ট্রান্সক্রিপশন সহ, 16kHz এ নমুনা করা হয়। এটি প্রায় 118 ঘন্টা বক্তৃতা ধারণ করে।

    This is the TED-LIUM corpus release 1,
    licensed under
    Creative Commons BY-NC-ND 3.0
    (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en).
  • হোমপেজ : https://www.openslr.org/7/

  • ডাউনলোড সাইজ : 19.82 GiB

  • ডেটাসেটের আকার : 39.23 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,469
'train' 56,803
'validation' 591

tedlium/releas2

  • কনফিগারেশনের বিবরণ : এটি TED-LIUM কর্পাস রিলিজ 2, ক্রিয়েটিভ কমন্স BY-NC-ND 3.0 ( http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en ) এর অধীনে লাইসেন্সকৃত।

    All talks and text are property of TED Conferences LLC.

    The TED-LIUM corpus was made from audio talks and their transcriptions
    available on the TED website
    . We have prepared and filtered these data
    in order to train acoustic models to participate to the International
    Workshop on Spoken Language Translation 2011 (the LIUM English/French
    SLT system reached the first rank
    in the SLT task).

    Contains 1495 talks and transcripts.
  • হোমপেজ : https://www.openslr.org/19/

  • ডাউনলোড আকার : 34.26 GiB

  • ডেটাসেটের আকার : 67.04 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,469
'train' ৯২,৯৭৩
'validation' 591

tedlium/release3

  • কনফিগারেশনের বিবরণ : এটি TED-LIUM কর্পাস রিলিজ 3, ক্রিয়েটিভ কমন্স BY-NC-ND 3.0 এর অধীনে লাইসেন্সপ্রাপ্ত।

    All talks and text are property of TED Conferences LLC.

    This new TED-LIUM release was made through a collaboration between the
    Ubiqus company and the LIUM (University of Le Mans, France)

    Contents:

    - 2351 audio talks in NIST sphere format (SPH), including talks from
      TED
    -LIUM 2: be careful, same talks but not same audio files (only
      these audio file must be used
    with the TED-LIUM 3 STM files)
    - 452 hours of audio
    - 2351 aligned automatic transcripts in STM format
    - TEDLIUM 2 dev and test data: 19 TED talks in SPH format with
      corresponding manual transcriptions
    (cf. 'legacy' distribution below).
    - Dictionary with pronunciations (159848 entries), same file as the one
      included
    in TED-LIUM 2
    - Selected monolingual data for language modeling from WMT12 publicly
      available corpora
    : these files come from the TED-LIUM 2 release, but
      have been modified to
    get a tokenization more relevant for English
      language

    Two corpus distributions:
    - the legacy one, on which the dev and test datasets are the same as in
      TED
    -LIUM 2 (and TED-LIUM 1).
    - the 'speaker adaptation' one, especially designed for experiments on
      speaker adaptation
    .
  • হোমপেজ : https://www.openslr.org/51/

  • ডাউনলোড সাইজ : 50.59 GiB

  • ডেটাসেটের আকার : 145.67 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,469
'train' 268,263
'validation' 591