Huggingface разветвил TFDS и предоставляет множество наборов текстовых данных. См. здесь для получения дополнительной документации. Далее вы можете найти список всех наборов данных, которые можно использовать с TFDS.
- акроним_идентификация
- ade_corpus_v2
- adv_glue
- adversarial_qa
- aeslc
- африкаанс_нер_корпус
- ag_news
- ai2_arc
- air_dialogue
- ajgt_twitter_ar
- allegro_reviews
- аллоцин
- альтернативный
- amazon_polarity
- amazon_reviews_multi
- amazon_us_reviews
- ambig_qa
- Americas_nli
- ами
- амттл
- Анли
- app_reviews
- аква_крыса
- аквамуза
- ar_cov19
- ar_res_reviews
- ar_сарказм
- арабский_миллиард_слов
- арабский_пос_диалект
- arabic_speech_corpus
- дуга
- arsentd_lev
- искусство
- arxiv_dataset
- ascent_kb
- aslg_pc12
- запрос
- актив
- убийца
- убийца2
- атомный
- аутшумато
- babi_qa
- банковское дело77
- bbaw_egyptian
- bbc_hindi_nli
- bc2gm_corpus
- бобы
- лучший2009
- бианет
- библия_пара
- большой_патент
- большая скамейка
- счетная сумма
- bing_coronavirus_query_set
- биомрц
- биоссы
- biwi_kinect_head_pose
- блбуки
- blbooksжанр
- blended_skill_talk
- дирижабль
- blog_authorship_corpus
- bn_hate_speech
- bnl_newspapers
- книжный корпус
- книгакорпусоткрытый
- бульк
- bprec
- break_data
- брвак
- bsd_ja_ru
- БСВАК
- с3
- с4
- кейл2018
- рак
- накидки
- казино
- каталония_независимость
- кошки_против_собак
- кавак
- ТОС
- куб.см100
- cc_news
- ccaligned_multilingual
- cdsc
- cdt
- кедр
- cfq
- ch_en
- cifar10
- сифар100
- около
- гражданские_комментарии
- clickbait_news_bg
- климат_лихорадка
- clinc_oos
- Подсказка
- cmrc2018
- cmu_hinglish_dog
- cnn_dailymail
- coached_conv_pref
- грубый_дискурс
- Кода
- code_search_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- code_x_glue_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- code_x_glue_cc_code_refinement
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- общий язык
- общий_голос
- commonsense_qa
- конкуренция_математика
- угадать что
- концептнет5
- концептуальный_12м
- концептуальные_заголовки
- conll2000
- conll2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- потребительские финансы жалобы
- conv_ai
- conv_ai_2
- conv_ai_3
- conv_questions
- кока
- шнур19
- cornell_movie_dialog
- cos_e
- космос_qa
- прилавок
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_japanese
- covost2
- КПП-5
- craigslist_bargains
- Crack_domain
- crd3
- преступление_и_наказание
- crows_pairs
- криптонит
- cs_restaurants
- четверка
- любопытство_диалоги
- daily_dialog
- датчанин
- датские_политические_комментарии
- дротик
- datacommons_factcheck
- dbpedia_14
- ДБРД
- Deal_or_no_dialog
- определенное_местоимение_разрешение
- денге_филиппинский
- dialog_re
- дипломатия_обнаружение
- Emergency_response_messages
- выводить из замешательства
- открытие
- disfl_qa
- doc2dial
- документированный
- дока
- мечтать
- уронить
- дуорк
- голландский_социальный
- дык
- e2e_nlg
- e2e_nlg_cleaned
- ЕЦБ
- ecthr_cases
- лезть
- ehealth_kd
- eitb_parcc
- диаграмма_нагрузки_электричества
- Эли5
- eli5_category
- элькархизкетак
- EMEA
- эмо
- эмоция
- emotone_ar
- empathetic_dialogues
- обогащенный_web_nlg
- enwik8
- ластик_multi_rc
- эснли
- eth_py150_open
- этос
- етт
- eu_regulatory_ir
- евлекс
- евроньюс
- europa_eac_tm
- europa_ecdc_tm
- европарл_двуязычный
- событие2Разум
- свидетельство_infer_лечение
- Экзамены
- факткбр
- поддельные_новости_английский
- fake_news_filipino
- фарси_новости
- fashion_mnist
- жар
- несколько_отн
- Financial_phrasebank
- тоньше
- цветы
- дымоход
- еда101
- квадроцикл
- freebase_qa
- зазор
- драгоценный камень
- сгенерированные_отзывы_энт
- generics_kb
- german_legal_entity_recognition
- немец
- гермеваль_14
- giga_fren
- гигаслово
- глюкоза
- клей
- gnad10
- go_emotions
- гуак
- google_wellformed_query
- Грааль_qa
- отличный_код
- греческий_legal_code
- gsm8k
- опекун_авторство
- Гутенберг_время
- Ганс
- гансарды
- жесткий
- гарем
- has_part
- ненависть_наступление
- ненависть_speech18
- hat_speech_filipino
- ненависть_speech_offensive
- ненависть_speech_pl
- hat_speech_portuguese
- ненавижуобъяснить
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- head_qa
- здоровье_факт
- иврит_проектбеньехуда
- иврит_сентимент
- иврит_это_мир
- хлам
- Хендрикс_тест
- задний_encorp
- хинди_дискурс
- гиппокорт
- хкканкор
- хлгд
- Hope_edi
- hotpot_qa
- парить
- hrenwac_para
- hrwac
- гумикроредактор
- гибрид_qa
- гиперпартизан_новости_обнаружение
- iapp_wiki_qa_squad
- id_clickbait
- id_liputan6
- id_nergrit_corpus
- id_newspapers_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingual
- igbo_ner
- илист
- imagenet-1k
- imagenet_sketch
- imdb
- imdb_urdu_reviews
- впечатляет
- индик_клей
- индонли
- индонлу
- любознательный_qg
- interpress_news_category_tr
- interpress_news_category_tr_lite
- irc_disentangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- опасность
- jfleg
- jigsaw_toxicity_pred
- jigsaw_unintended_bias
- jnlpba
- журналисты_вопросы
- kan_hope
- каннада_новости
- kd_conv
- кде4
- кельм
- kilt_tasks
- килт_википедия
- kinnews_kirnews
- подсказка
- kor_3i4k
- kor_hate
- кор_нер
- кор_нли
- кор_нлу
- kor_qpair
- kor_sae
- кор_сарказм
- лаборатория
- лама
- ламбада
- большой_испанский_корпус
- лароседа
- lc_quad
- lccc
- lener_br
- лекс_клей
- лжец
- librispeech_asr
- librispeech_lm
- ограничение
- линц
- Линней
- лайвка
- lj_speech
- lm1b
- лст20
- м_лама
- mac_morpho
- махзан
- масаханер
- math_dataset
- math_qa
- утренник
- млн барр
- мс4
- mc_taco
- md_gender_bias
- мдд
- med_hop
- медаль
- медицинский_диалог
- medical_questions_pairs
- medmcqa
- menyo20k_mt
- meta_woz
- метасдвиг
- метома
- метрек
- Майам
- мкб
- мкка
- млка
- млсумма
- мнист
- мокко
- monash_tsf
- Марокко
- movie_rationales
- мрка
- ms_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_вьетнамский
- многоценный
- multi_booked
- multi_eurlex
- multi_news
- multi_nli
- multi_nli_mismatch
- multi_para_crawl
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- мультидок2диал
- multilingual_librispeech
- общие друзья
- mwsc
- myanmar_news
- рассказка
- нарративqa_manual
- натуральные_вопросы
- ncbi_disease
- нчлт
- ncslgr
- Нелл
- нейронный_код_поиск
- новости_комментарий
- группа новостей
- газета
- новостиph_nli
- новостная лента
- Newsqa
- отдел новостей
- nkjp-нер
- nli_tr
- nlu_evaluation_data
- норек
- норн
- norwegian_ner
- nq_open
- НСМЦ
- numer_sense
- numeric_fused_head
- оклар
- расческа
- обидаval2020_tr
- обидаval_dravidian
- office_publik
- осумед
- Олли
- Омп
- onestop_english
- onestop_qa
- open_subtitles
- openai_humaneval
- openbookqa
- openslr
- открытый веб-текст
- мнение
- опус100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- опус_рф
- opus_tedtalks
- opus_ubuntu
- опус_википедия
- opus_xhosanavy
- Orange_sum
- Оскар
- para_crawl
- para_pat
- parsinlu_reading_comprehension
- проходить
- лапы
- лапы-х
- грудная клетка
- peer_read
- peoples_daily_ner
- per_sent
- персидский_нер
- стр.19
- php
- пиаф
- пиб
- пика
- pn_summary
- стихотворение_чувство
- полемо2
- poleval2019_cyberbullying
- poleval2019_mt
- полсум
- полиглот_нер
- Прачатай67k
- практичный
- proto_qa
- пс
- ptb_text_only
- опубликовано
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- кенгуру
- канта
- каск
- Каспер
- qed
- qed_amara
- квак
- перепел
- ссора
- кварц
- зарисовка
- квора
- quoref
- гонка
- повторный набор
- Reasoning_bg
- recipe_nlg
- перезаписывать
- красные_шапки
- реддит
- reddit_tifu
- обновлен
- рейтер21578
- загадка_смысл
- ro_sent
- ro_sts
- ro_sts_parallel
- Роман_урду
- roman_urdu_hate_speech
- ронек
- веревки
- гнилые помидоры
- русский_суперклей
- rvl_cdip
- s2orc
- самсум
- санскрит_классический
- Саудовская Аравия
- сберквад
- sbu_captions
- сканирование
- scb_mt_enth_2020
- scene_parse_150
- схема_guided_dstc8
- скицит
- сциело
- научные_бумаги
- наука
- наука
- цитейл
- scitldr
- search_qa
- седе
- селька
- sem_eval_2010_task_8
- sem_eval_2014_task_1
- sem_eval_2018_task_1
- sem_eval_2020_task_11
- send_comp
- senti_lex
- senti_ws
- настроение140
- sepedi_ner
- sesotho_ner_corpus
- время
- setswana_ner_corpus
- акула
- Sharc_modified
- больной
- силикон
- простые_вопросы_v2
- siswati_ner_corpus
- умные данные
- смс_спам
- snips_built_in_intents
- снили
- snow_simplified_japanese_corpus
- so_stacksample
- social_bias_frames
- social_i_qa
- sofc_materials_articles
- sogou_news
- испанский_миллиард_слов
- спец
- виды_800
- речь_команды
- паук
- отряд
- отряд_противоположный
- отряд_эс
- отряд_ит
- отряд_кор_v1
- отряд_кор_v2
- отряд_v1_pt
- отряд_v2
- отряды
- срвак
- сс
- стереосет
- story_cloze
- stsb_mt_sv
- stsb_multi_mt
- style_change_detection
- subjqa
- супер клей
- превосходный
- СВН
- раскачиваться
- суахили
- swahili_news
- Свда
- шведский_медицинский_нер
- шведский_ner_corpus
- swedish_reviews
- swiss_judgment_prediction
- tab_fact
- tamilmixсентимент
- танзил
- тапако
- ташкила
- надсмотрщик1
- Надсмотрщик2
- надсмотрщик3
- татоэба
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- телугу_книги
- телугу_новости
- tep_en_fa_para
- текст2лог
- textvqa
- thai_toxicity_tweet
- тайнер
- thaiqa_squad
- тайсум
- the_pile
- the_pile_books3
- the_pile_openwebtext2
- the_pile_stack_exchange
- тильда_модель
- time_dial
- times_of_india_news_headlines
- timit_asr
- крошечный_шекспир
- ТСХ
- tmu_gfm_dataset
- тне
- сказал-бр
- Тотто
- трек
- trivia_qa
- правдивый_qa
- цац
- ттк4900
- тунис
- tuple_ie
- турок
- turkic_xwmt
- turkish_movie_sentiment
- turkish_ner
- turkish_product_reviews
- turkish_shrinked_ner
- turku_ner_corpus
- tweet_eval
- tweet_qa
- tweets_ar_en_parallel
- tweets_hate_speech_detection
- twi_text_c3
- twi_wordsim353
- тыдика
- ubuntu_dialogs_corpus
- Удр
- мм005
- un_ga
- un_multi
- un_pc
- универсальные_зависимости
- универсальные_морфологии
- urdu_fake_news
- urdu_sentiment_corpus
- vctk
- визуальный_геном
- живые
- web_nlg
- web_of_science
- web_questions
- weibo_ner
- wi_locness
- более широкое_лицо
- wiki40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- wiki_hop
- wiki_lingua
- wiki_movies
- wiki_qa
- wiki_qa_ar
- wiki_snippets
- вики_источник
- wiki_split
- wiki_summary
- викианн
- викикорпус
- wikihow
- википедия
- викиsql
- wikitablequestions
- викитекст
- wikitext_tl39
- wili_2018
- wino_bias
- виноград_wsc
- виногранде
- вика
- мудрый взгляд1000
- wisesight_sentiment
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- wnut_17
- вонгнай_обзоры
- woz_dialogue
- wrbsc
- x_stance
- xcopa
- xcsr
- xed_en_fi
- клей
- хнли
- xor_tydi_qa
- квадроцикл
- xquad_r
- хсум
- xsum_factuality
- экстремальный
- yahoo_answers_qa
- yahoo_answers_topics
- yelp_polarity
- yelp_review_full
- йоруба_bbc_topics
- йоруба_гв_нер
- йоруба_text_c3
- йоруба_wordsim353
- youtube_caption_corrections
- изюминка