Huggingface TFDS را فورک کرده است و مجموعه داده های متنی زیادی را ارائه می دهد. برای مستندات بیشتر اینجا را ببینید. در مرحله بعد می توانید لیستی از تمام مجموعه داده هایی را که می توان با TFDS استفاده کرد پیدا کنید.
- مخفف_شناسایی
- ade_corpus_v2
- adv_glue
- متخاصم_قا
- aeslc
- afrikaans_ner_corpus
- ag_news
- ai2_arc
- air_dialogue
- ajgt_twitter_ar
- allegro_reviews
- آلوسین
- alt
- amazon_polarity
- amazon_reviews_multi
- amazon_us_reviews
- ambig_qa
- americas_nli
- آمی
- amttl
- anli
- برنامه_بررسی ها
- موش آبی
- آبزیان
- ar_cov19
- ar_res_reviews
- ar_ طعنه
- عربی_میلیارد_کلمه
- لهجه_عربی
- پیکر_گفتار_عربی
- arcd
- arsentd_lev
- هنر
- arxiv_dataset
- ascent_kb
- aslg_pc12
- asnq
- دارایی
- قاتل
- assin2
- اتمی
- اتوشوماتو
- babi_qa
- بانکداری77
- bbaw_مصری
- bbc_hindi_nli
- bc2gm_corpus
- لوبیا
- best2009
- bianet
- کتاب مقدس_پارا
- ثبت اختراع بزرگ
- میز بزرگ
- بیلسام
- bing_coronavirus_query_set
- biomrc
- بیوسس ها
- biwi_kinect_head_pose
- blbooks
- blbooksgenre
- blended_skill_talk
- بال زدن
- blog_authorship_corpus
- بن_سخن_نفرت
- bnl_روزنامه ها
- مجموعه کتاب
- كتابخانه باز
- boolq
- bprec
- break_data
- brwac
- bsd_ja_en
- bswac
- ج3
- ج4
- cail2018
- نیشکر
- شنل ها
- کازینو
- کاتالونیا_استقلال
- گربه_در مقابل_سگ
- cawac
- cbt
- سی سی 100
- cc_news
- ccaligned_multilingual
- سی دی سی
- cdt
- sedr
- cfq
- chr_en
- cifar10
- cifar100
- در حدود
- civil_comments
- clickbait_news_bg
- اقلیم_تب
- clinc_oos
- سرنخ
- cmrc2018
- cmu_hinglish_dog
- cnn_dailymail
- coached_conv_pref
- درشت_گفتمان
- کدا
- code_search_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- code_x_glue_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- code_x_glue_cc_code_refinement
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- زبان مشترک
- صدای مشترک
- مشترک_قا
- رقابت_ریاضی
- حدس بزن
- مفهوم شبکه 5
- مفهومی_12 متر
- عنوان_مفهومی
- conll2000
- conll2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- مصرف کننده-مالی-شکایات
- conv_ai
- conv_ai_2
- conv_ai_3
- conv_questions
- کوکا
- طناب 19
- cornell_movie_dialog
- cos_e
- cosmos_qa
- پیشخوان
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_japanese
- covost2
- cppe-5
- craigslist_bargains
- crawl_domain
- crd3
- جنایت_و_مجازات
- کلاغ_جفت
- کریپتونیت
- cs_restaurants
- کواد
- کنجکاوی_گفتگوها
- daily_dialog
- دانمارکی
- نظرات_سیاسی_دنیا
- دارت
- datacommons_factcheck
- dbpedia_14
- dbrd
- deal_or_no_dialog
- تفکیک_ضمیر_معین
- دنگی_فیلیپینی
- dialog_re
- دیپلماسی_تشخیص
- Disaster_response_messages
- از بین بردن
- کشف
- disfl_qa
- doc2dial
- اعتقادی
- دوقا
- رویا
- رها کردن
- duorc
- هلندی_اجتماعی
- دایک
- e2e_nlg
- e2e_nlg_cleaned
- ecb
- ecthr_cases
- ادا کردن
- ehealth_kd
- eitb_parcc
- نمودار_بار_الکتریسیته
- eli5
- eli5_category
- elkarhizketak
- استفراغ
- ایمو
- هیجانی
- emotone_ar
- گفتگوهای همدلانه
- enriched_web_nlg
- enwik8
- eraser_multi_rc
- esnli
- eth_py150_open
- اخلاق
- و غیره
- eu_regulatory_ir
- اورلکس
- یورونیوز
- europa_eac_tm
- europa_ecdc_tm
- europarl_دو زبانه
- event2Mind
- شواهد_استنتاج_درمان
- امتحانات
- factckbr
- اخبار جعلی_انگلیسی
- اخبار جعلی_فیلیپینی
- farsi_news
- fashion_mnist
- تب
- few_rel
- بانک عبارات مالی
- ظریف تر
- گل ها
- دودکش
- غذا101
- fquad
- freebase_qa
- شکاف
- گوهر
- generated_reviews_enth
- generic_kb
- آلمانی_حقوقی_شناسایی
- آلمانر
- germeval_14
- giga_fren
- گیگاورد
- گلوکز
- چسب
- gnad10
- برو_احساسات
- گوآق
- google_wellformed_query
- grail_qa
- بزرگ_کد
- کد_حقوقی_یونانی
- gsm8k
- سرپرست_نویسندگی
- gutenberg_time
- هانس
- هانسارد
- سخت
- حرمسرا
- دارای_بخش است
- نفرت_توهین آمیز
- نفرت_سخن18
- نفرت_سخن_فیلیپینی
- نفرت_سخن_توهین آمیز
- نفرت_سخن_pl
- نفرت_گفتار_پرتغالی
- نفرت توضیح دهید
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- head_qa
- سلامتی_واقعیت
- hebrew_projectbenyehuda
- hebrew_sentiment
- عبری_این_جهان
- hellaswag
- hendrycks_test
- hind_encorp
- هندی_گفتمان
- هیپوکورپوس
- hkcancor
- hlgd
- hope_edi
- hotpot_qa
- شناور
- hrenwac_para
- hrwac
- humicroedit
- هیبرید_قا
- hyperpartisan_news_detection
- iapp_wiki_qa_squad
- id_clickbait
- id_liputan6
- id_nergrit_corpus
- id_newspapers_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingual
- igbo_ner
- Ilist
- imagenet-1k
- imagenet_sketch
- imdb
- imdb_urdu_reviews
- تحت تاثیر قرار دادن
- اندیک_چسب
- ایندونلی
- indonlu
- inquisitive_qg
- interpress_news_category_tr
- interpress_news_category_tr_lite
- irc_Disentangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- خطر
- jfleg
- jigsaw_toxicity_pred
- jigsaw_unintended_bias
- jnlpba
- خبرنگاران_سوالات
- kan_hope
- kannada_news
- kd_conv
- kde4
- کلم
- kilt_tasks
- kilt_wikipedia
- kinnews_kirnews
- کلو
- kor_3i4k
- کور_نفرت
- kor_ner
- kor_nli
- kor_nlu
- kor_qpair
- kor_sae
- کور_طعنه
- آزمایشگاه
- لاما
- لامبادا
- بزرگ_اسپانیایی_جسم
- لاروسدا
- lc_quad
- lccc
- lener_br
- lex_glue
- دروغ گو
- librispeech_asr
- librispeech_lm
- حد
- لینس
- لینه
- زندهقا
- lj_speech
- lm1b
- lst20
- m_lama
- mac_morpho
- مخزن
- مساخانر
- math_dataset
- math_qa
- ماتینف
- mbpp
- mc4
- mc_taco
- md_gender_bias
- mdd
- med_hop
- مدال
- پزشکی_دیالوگ
- جفت_سوالات_پزشکی
- medmcqa
- menyo20k_mt
- meta_woz
- متا شیفت
- متوما
- متر
- میام
- mkb
- mkqa
- mlqa
- mlsum
- منیست
- موکا
- monash_tsf
- مراکش
- فیلم_منطقی
- مرقا
- ms_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_vietnamese
- موسوسین
- چند_رزرو شده
- multi_eurlex
- چند_اخبار
- multi_nli
- multi_nli_mismatch
- multi_para_crawl
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- multidoc2dial
- multilingual_librispeech
- دوستان مشترک
- mwsc
- اخبار میانمار
- روایتقا
- narrativeqa_manual
- سوالات_طبیعی
- ncbi_sease
- nchlt
- ncslgr
- نل
- neural_code_search
- اخبار_تفسیر
- گروه خبری
- newsph
- newsph_nli
- پاپ روزنامه
- خبرقا
- اتاق خبر
- nkjp-ner
- nli_tr
- nlu_evaluation_data
- norec
- نورنه
- Norwegian_ner
- nq_open
- nsmc
- numer_sense
- عددی_ذوب شده
- چشم انداز
- offcombr
- offenseval2020_tr
- offenseval_dravidian
- ofis_publik
- ohsumed
- اولی
- omp
- onestop_english
- onestop_qa
- open_subtitles
- openai_humaneval
- openbookqa
- openslr
- متن باز وب
- اپینوزیس
- opus100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- opus_rf
- opus_tedtalks
- opus_ubuntu
- opus_wikipedia
- opus_xhosanavy
- نارنجی_جمع
- اسکار
- para_crawl
- para_pat
- parsinlu_reading_comprehension
- عبور
- پنجه ها
- پنجه-x
- پک
- peer_read
- peoples_daily_ner
- per_sent
- persian_ner
- pg19
- php
- پیاف
- پیب
- پیقا
- pn_summary
- شعر_احساس
- polemo2
- poleval2019_قلدری سایبری
- poleval2019_mt
- پولسوم
- polyglot_ner
- prachathai67k
- پراگموال
- proto_qa
- psc
- ptb_text_only
- pubmed
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- قانگرو
- قنتا
- qasc
- قاسپر
- qed
- qed_amara
- کواک
- بلدرچین
- نزاع
- کوارتز
- قرعه کشی سریع
- حد نصاب
- quoref
- نژاد
- re_dial
- استدلال_bg
- recipe_nlg
- یادآوری
- قرمز_کلاه
- reddit_tifu
- تازه کردن
- رویترز21578
- معما_حس
- ro_sent
- ro_sts
- ro_sts_parallel
- roman_urdu
- رومی_اردو_سخنان_تنفر
- رونک
- طناب ها
- گوجه_گاسیده
- روسی_سوپر_چسب
- rvl_cdip
- s2orc
- سموم
- سانسکریت_کلاسیک
- saudinewsnet
- sberquad
- sbu_captions
- اسکن کنید
- scb_mt_enth_2020
- صحنه_تجزیه_150
- schema_guided_dstc8
- scicite
- scielo
- مقالات علمی
- scifact
- sciq
- خرچنگ
- scitldr
- search_qa
- sede
- سلقا
- sem_eval_2010_task_8
- sem_eval_2014_task_1
- sem_eval_2018_task_1
- sem_eval_2020_task_11
- sent_comp
- senti_lex
- senti_ws
- احساسات140
- sepedi_ner
- sesotho_ner_corpus
- بارها
- setswana_ner_corpus
- شارک
- sharc_modified
- بیمار
- سیلیکون
- simple_questions_v2
- siswati_ner_corpus
- داده های هوشمند
- sms_spam
- snips_built_in_intents
- snli
- برف_ساده_شده_ژاپنی_جسم
- so_stacksample
- چارچوب_سوگیری_اجتماعی
- social_i_qa
- softc_materials_articles
- sogou_news
- اسپانیایی_میلیارد_کلمه
- spc
- گونه_800
- دستورات_گفتار
- عنکبوت
- تیم
- squad_adversarial
- squad_es
- squad_it
- squad_kor_v1
- squad_kor_v2
- squad_v1_pt
- squad_v2
- شیفت های دسته جمعی
- srwac
- sst
- استریوز
- story_cloze
- stsb_mt_sv
- stsb_multi_mt
- style_change_detection
- subjqa
- فوق_چسب
- عالی
- svhn
- کوله پشتی
- سواحیلی
- swahili_news
- swda
- Swedish_medical_ner
- Swedish_ner_corpus
- Swedish_Reviews
- swiss_judgment_prediction
- tab_fact
- تامیل میکس احساس
- تنزیل
- تاپاکو
- تشکیله
- taskmaster1
- taskmaster2
- taskmaster3
- تاتوبا
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- کتابهای تلوگو
- telugu_news
- tep_en_fa_para
- text2log
- textvqa
- thai_toxicity_tweet
- بیشتر
- thaiqa_squad
- تایسوم
- شمع
- the_pile_books3
- the_pile_openwebtext2
- the_pile_stack_exchange
- tilde_model
- time_dial
- Times_of_India_news_headlines
- timit_asr
- کوچک_شکسپیر
- TLC
- tmu_gfm_dataset
- تنه
- گفت-بر
- همگی
- trec
- چیزهای بی اهمیت_قا
- صادق_قا
- tsac
- ttc4900
- تونیزی
- tuple_ie
- ترک
- turkic_xwmt
- احساس_فیلم_ترکی
- turk_ner
- نقدهای_محصول_تُرکی
- turk_srinked_ner
- turku_ner_corpus
- tweet_eval
- توییت_قا
- tweets_ar_en_parallel
- tweets_hate_speech_detection
- twi_text_c3
- twi_wordsim353
- تیدیقا
- ubuntu_dialogs_corpus
- عدر
- um005
- un_ga
- un_multi
- un_pc
- جهانی_وابستگی ها
- مورفولوژی های جهانی
- urdu_fake_news
- urdu_sentiment_corpus
- vctk
- ویژوال ژنوم
- vivos
- web_nlg
- وب_علم
- وب_سوالات
- weibo_ner
- wi_locness
- پهنتر_صورت
- wiki40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- wiki_hop
- wiki_lingua
- ویکی_فیلم ها
- wiki_qa
- wiki_qa_ar
- wiki_snippets
- منبع ویکی
- wiki_split
- wiki_summary
- ویکیان
- ویکی کورپوس
- wikihow
- ویکیپدیا
- wikisql
- سوالات ویکی کیت
- ویکی متن
- wikitext_tl39
- wili_2018
- wino_bias
- winograd_wsc
- وینوگراند
- ویکا
- wisesight1000
- عاقلانه_احساس
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- wnut_17
- wongnai_reviews
- woz_dialogue
- wrbsc
- x_ موضع
- xcopa
- xcsr
- xed_en_fi
- x چسب
- xnli
- xor_tydi_qa
- xquad
- xquad_r
- xsum
- xsum_factuality
- xtreme
- yahoo_answers_qa
- یاهو_پاسخ_موضوعات
- yelp_polarity
- yelp_review_full
- yoruba_bbc_topics
- yoruba_gv_ner
- yoruba_text_c3
- yoruba_wordsim353
- youtube_caption_corrections
- شوق و شور