menyo20k_mt

مراجع:

menyo20k_mt

استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:

ds = tfds.load('huggingface:menyo20k_mt/menyo20k_mt')
  • وصف :
MENYO-20k is a multi-domain parallel dataset with texts obtained from news articles, ted talks, movie transcripts, radio transcripts, science and technology texts, and other short articles curated from the web and professional translators. The dataset has 20,100 parallel sentences split into 10,070 training sentences, 3,397 development sentences, and 6,633 test sentences (3,419 multi-domain, 1,714 news domain, and 1,500 ted talks speech transcript domain). The development and test sets are available upon request.
  • الترخيص : للاستخدام غير التجاري لأن بعض مصادر البيانات مثل Ted Talks وJW News تتطلب إذنًا للاستخدام التجاري.
  • الإصدار : 1.0.0
  • الإنشقاقات :
ينقسم أمثلة
'train' 10070
  • سمات :
{
    "translation": {
        "languages": [
            "en",
            "yo"
        ],
        "id": null,
        "_type": "Translation"
    }
}