Huggingface ha bifurcado TFDS y proporciona una gran cantidad de conjuntos de datos de texto. Consulte aquí para obtener más documentación. A continuación, puede encontrar la lista de todos los conjuntos de datos que se pueden usar con TFDS.
- acrónimo_identificación
- ade_corpus_v2
- adv_pegamento
- adversarial_qa
- aeslc
- afrikaans_ner_corpus
- ag_noticias
- ai2_arco
- aire_diálogo
- ajgt_twitter_ar
- allegro_revisiones
- alocina
- alternativa
- amazon_polaridad
- amazon_revisiones_multi
- amazon_us_reseñas
- ambig_qa
- americas_nli
- amigo
- amttl
- anli
- app_reviews
- aqua_rata
- acuamusa
- ar_cov19
- ar_res_reseñas
- ar_sarcasmo
- mil millones_de_palabras_arabes
- árabe_pos_dialecto
- corpus_del_habla_en_arabe
- arco
- arsentd_lev
- Arte
- arxiv_conjunto de datos
- ascenso_kb
- aslg_pc12
- asq
- activo
- culo
- culo2
- atómico
- autómata
- babi_qa
- banca77
- bbaw_egipcio
- bbc_hindi_nli
- bc2gm_corpus
- frijoles
- mejor2009
- bianeta
- biblia_para
- gran_patente
- banco grande
- billsum
- bing_coronavirus_query_set
- biomrc
- bioses
- biwi_kinect_head_pose
- blbooks
- blbooksgenre
- blended_skill_talk
- dirigible
- blog_authorship_corpus
- bn_hate_speech
- bnl_periódicos
- corpus del libro
- librocorpusabierto
- boolq
- bprec
- romper_datos
- brwac
- bsd_ja_es
- bswac
- c3
- c4
- cail2018
- caña
- capas
- casino
- Cataluña_independencia
- gatos_vs_perros
- cawac
- TCC
- cc100
- cc_noticias
- ccaligned_multilingüe
- cdsc
- CDT
- cedro
- cfq
- chr_es
- cifrar10
- Cifar100
- hacia
- comentarios_civiles
- clickbait_news_bg
- fiebre_climática
- clinc_oos
- clave
- cmrc2018
- cmu_hinglish_dog
- cnn_dailymail
- coached_conv_pref
- discurso_grosero
- codah
- code_search_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- código_x_pegamento_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- código_x_pegamento_cc_código_refinamiento
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- lenguaje común
- voz_comun
- sentidocomun_qa
- competencia_matemáticas
- adivina qué
- conceptonet5
- conceptual_12m
- subtítulos_conceptuales
- conll2000
- conll2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- consumidor-finanzas-quejas
- conv_ai
- conv_ai_2
- conv_ai_3
- conv_preguntas
- coca
- cable19
- cornell_movie_dialog
- cómodamente
- cosmos_qa
- encimera
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_japonés
- covost2
- cppe-5
- craigslist_gangas
- rastreo_dominio
- crd3
- crimen_y_castigo
- parejas_de_cuervos
- criptonita
- cs_restaurantes
- cuad
- diálogos_curiosidad
- diálogo_diario
- danés
- comentarios_politicos_daneses
- dardo
- datacommons_factcheck
- dbpedia_14
- dbrd
- tratar_o_no_diálogo
- pronombre_definido_resolucion
- dengue_filipino
- diálogo_re
- diplomacia_detección
- mensajes_respuesta_desastre
- desenmascarar
- descubrimiento
- disfl_qa
- doc2dial
- docrado
- doqa
- sueño
- soltar
- duorc
- holandés_social
- dique
- e2e_nlg
- e2e_nlg_limpiado
- bce
- casos_ecthr
- borde
- ehealth_kd
- eitb_parcc
- diagramas_de_carga_electricidad
- eli5
- eli5_categoría
- elkarhizketak
- emea
- emo
- emoción
- emotone_ar
- diálogos_empáticos
- enriquecido_web_nlg
- enwik8
- eraser_multi_rc
- esnli
- eth_py150_open
- carácter distintivo
- ett
- eu_regulatory_ir
- eurolex
- euronoticias
- europa_eac_tm
- europa_ecdc_tm
- europarl_bilingüe
- evento2mente
- evidencia_inferir_tratamiento
- examenes
- hechockbr
- fake_news_english
- noticias_falsas_filipino
- farsi_noticias
- moda_mnista
- fiebre
- pocos_rel
- banco_de_frases_financiero
- más fino
- flores
- tubo
- comida101
- equipo
- freebase_qa
- brecha
- joya
- opiniones_generadas_enth
- genéricos_kb
- german_legal_entity_recognition
- germanero
- germeval_14
- giga_fren
- gigapalabra
- glucosa
- pegamento
- gnad10
- ir_emociones
- gooaq
- google_wellformed_query
- grial_qa
- gran_codigo
- código_legal_griego
- gsm8k
- tutor_autoría
- hora_gutenberg
- hans
- hansards
- difícil
- harén
- tiene_parte
- odio_ofensivo
- discurso_de_odio18
- discurso_de_odio_filipino
- odio_discurso_ofensivo
- odio_discurso_pl
- odio_discurso_portugués
- Odio explicar
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- cabeza_qa
- hecho_salud
- proyecto_hebreobenyehuda
- sentimiento_hebreo
- hebreo_este_mundo
- infernal
- hendrycks_test
- hind_encorp
- discurso_hindi
- hipocorpus
- cancor
- hlgd
- esperanza_edi
- hotpot_qa
- flotar
- hrenwac_para
- hrwac
- microeditar
- hibrido_qa
- hiperpartidista_noticias_detección
- iapp_wiki_qa_squad
- id_clickbait
- id_liputan6
- id_nergrit_corpus
- id_periódicos_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingüe
- igbo_ner
- lista
- imagenet-1k
- imagenet_sketch
- imdb
- imdb_urdu_revisiones
- impresiona
- indic_pegamento
- indonli
- indonlu
- inquisitivo_qg
- interpress_news_category_tr
- interpress_news_category_tr_lite
- irc_disentangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- peligro
- jfleg
- rompecabezas_toxicidad_pred
- Jigsaw_unintended_bias
- jnlpba
- preguntas_periodistas
- kan_esperanza
- noticias_kannada
- kd_conv
- kde4
- Kelm
- tareas_del_kilt
- falda escocesa_wikipedia
- kinnews_kirnews
- klue
- kor_3i4k
- kor_hate
- kor_ner
- kor_nli
- kor_nlu
- kor_qpair
- kor_sae
- kor_sarcasm
- laboratorio
- lama
- lambada
- gran_corpus_espanol
- laroseda
- lc_quad
- lccc
- lener_br
- lex_pegamento
- mentiroso
- librispeech_asr
- librispeech_lm
- límite
- lince
- Linneo
- vivirqa
- lj_habla
- lm1b
- lst20
- m_lama
- mac_morpho
- makhzan
- masakhaner
- conjunto_de_datos_matemáticos
- matemáticas_qa
- matinal
- mbpp
- mc4
- mc_taco
- md_gender_bias
- mdd
- med_hop
- medalla
- diálogo_médico
- pares_de_preguntas_medicas
- medmcqa
- menyo20k_mt
- meta_woz
- metacambio
- metoma
- metrec
- miam
- mkb
- mkqa
- mlqa
- mlsum
- mnista
- moca
- monash_tsf
- Marruecos
- movie_rationales
- mrqa
- ms_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_vietnamita
- mucho cine
- multi_booked
- multi_eurlex
- multi_noticias
- multi_nli
- multi_nli_mismatch
- multi_para_rastreo
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- multidoc2dial
- multilingual_librispeech
- amigos en común
- mwsc
- myanmar_noticias
- narrativaqa
- narrativaqa_manual
- preguntas_naturales
- enfermedad_ncbi
- nchlt
- ncslgr
- nell
- búsqueda_de_código_neural
- noticia_comentario
- grupo de noticias
- noticias
- noticiasph_nli
- noticias populares
- noticiasqa
- sala de redacción
- nkjp-ner
- nli_tr
- datos_de_evaluación_nlu
- norec
- norne
- norwegian_ner
- nq_abierto
- nsmc
- numer_sense
- cabeza_fusionada_numérica
- ocre
- descompuesto
- ofensaval2020_tr
- ofensaval_dravidian
- ofis_publik
- oh sumado
- Ollie
- omp
- onestop_english
- onestop_qa
- abrir_subtítulos
- openai_humaneval
- libroabiertoqa
- openlr
- textowebabierto
- opinión
- opus100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- opus_rf
- opus_tedtalks
- opus_ubuntu
- opus_wikipedia
- opus_xhosanavy
- suma_naranja
- Óscar
- para_rastrear
- para_pat
- parsinlu_lectura_comprensión
- pasar
- patas
- patas-x
- pectorales
- peer_read
- peoples_daily_ner
- por_enviado
- persa_ner
- pg19
- php
- piaf
- pib
- Piqa
- pn_summary
- poema_sentimiento
- polemo2
- poleval2019_cyberbullying
- poleval2019_mt
- polsum
- políglota_ner
- prachathai67k
- pragmático
- proto_qa
- psc
- ptb_text_only
- publicado
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- canguro
- qanta
- qasc
- qasper
- qed
- qed_amara
- quac
- codorniz
- pelea
- cuarzo
- dibujo rapido
- quora
- quoref
- la raza
- volver a marcar
- razonamiento_bg
- receta_nlg
- recolorear
- gorras_rojas
- reddit_tifu
- refrescado
- reuters21578
- acertijo_sentido
- ro_enviado
- ro_sts
- ro_sts_parallel
- roman_urdu
- roman_urdu_hate_speech
- ronec
- cuerdas
- tomates podridos
- super_pegamento_ruso
- rvl_cdip
- s2orc
- samsum
- sánscrito_clásico
- saudinewsnet
- sberquad
- sbu_captions
- escanear
- scb_mt_enth_2020
- scene_parse_150
- esquema_guided_dstc8
- scicite
- scielo
- articulos cientificos
- scifacto
- ciencia ficción
- scitail
- scitldr
- buscar_qa
- sede
- selqa
- sem_eval_2010_tarea_8
- sem_eval_2014_tarea_1
- sem_eval_2018_tarea_1
- sem_eval_2020_tarea_11
- enviado_comp
- senti_lex
- Senti_ws
- sentimiento140
- sepedi_ner
- sesotho_ner_corpus
- a veces
- setswana_ner_corpus
- sharc
- sharc_modificado
- enfermo
- silicona
- preguntas_simples_v2
- siswati_ner_corpus
- datos inteligentes
- sms_spam
- recortes_construidos_en_intentos
- snli
- snow_simplified_japanese_corpus
- tan_stacksample
- social_bias_frames
- social_i_qa
- sofc_materials_articles
- sogou_noticias
- mil millones_de_palabras_españolas
- spc
- especies_800
- comandos de voz
- araña
- equipo
- escuadrón_adversario
- escuadrón_es
- equipo_es
- escuadrón_kor_v1
- escuadrón_kor_v2
- escuadrón_v1_pt
- escuadrón_v2
- turnos de escuadrón
- srwac
- acero inoxidable
- estéreo
- historia_cloze
- stsb_mt_sv
- stsb_multi_mt
- estilo_cambio_detección
- subjqa
- Super pegamento
- magnífico
- svhn
- estilo
- swahili
- swahili_noticias
- swda
- swedish_medical_ner
- swedish_ner_corpus
- opiniones_suecas
- juicio_suizo_prediccion
- tab_fact
- sentimientotamilmix
- tanzil
- tapaco
- tashkeela
- capataz1
- capataz2
- capataz3
- tatoeba
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- libros_telugu
- telugu_noticias
- tep_en_fa_para
- texto2log
- textovqa
- thai_toxicity_tweet
- thainer
- thaiqa_squad
- tailandés
- la pila
- la_pila_de_libros3
- the_pile_openwebtext2
- the_pile_stack_exchange
- modelo_tilde
- marcar_tiempo
- times_of_india_news_headlines
- timit_asr
- diminuto_shakespeare
- tlc
- tmu_gfm_conjunto de datos
- tne
- dicho-br
- todo
- trec
- trivia_qa
- veraz_qa
- tsac
- ttc4900
- tunizi
- tuple_es
- turco
- turkic_xwmt
- turkish_movie_sentiment
- turkish_ner
- turkish_product_reviews
- turkish_shrinked_ner
- turku_ner_corpus
- tweet_eval
- tweet_qa
- tweets_ar_en_parallel
- tweets_hate_speech_detection
- twi_text_c3
- twi_wordsim353
- tidiqa
- ubuntu_dialogs_corpus
- udhr
- um005
- un_ga
- un_multi
- un_pc
- dependencias_universales
- morfologías_universales
- urdu_fake_noticias
- urdu_sentiment_corpus
- vctk
- genoma_visual
- vivos
- web_nlg
- Web de la Ciencia
- web_preguntas
- weibo_ner
- wi_locness
- cara_ancha
- wiki40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- wiki_hop
- wiki_lingua
- wiki_películas
- wiki_qa
- wiki_qa_ar
- wiki_snippets
- fuente_wiki
- wiki_split
- resumen_wiki
- wikiann
- wikicorpus
- wikihow
- wikipedia
- wikisql
- wikitablequestions
- wikitexto
- wikitext_tl39
- wili_2018
- wino_bias
- winograd_wsc
- winogrande
- wiqa
- sabiavista1000
- wisesight_sentiment
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- nuez_17
- wongnai_revisiones
- woz_diálogo
- wrbsc
- x_stance
- xcopa
- xcsr
- xed_en_fi
- xpegamento
- xnli
- xor_tydi_qa
- xquad
- xquad_r
- xsum
- xsum_factuality
- extremo
- yahoo_respuestas_qa
- yahoo_answers_topics
- yelp_polaridad
- yelp_review_full
- yoruba_bbc_topics
- yoruba_gv_ner
- yoruba_text_c3
- yoruba_wordsim353
- youtube_caption_correcciones
- ánimo