
  • Descrizione :

GEM è un ambiente di riferimento per la generazione del linguaggio naturale con un focus sulla sua valutazione, sia attraverso annotazioni umane che metriche automatizzate.

GEM mira a: (1) misurare i progressi NLG attraverso 13 set di dati che coprono molte attività e lingue NLG. (2) fornire un'analisi approfondita dei dati e dei modelli presentati tramite dichiarazioni di dati e insiemi di sfide. (3) sviluppare standard per la valutazione del testo generato utilizzando metriche sia automatizzate che umane.

Ulteriori informazioni sono disponibili su .

gem/common_gen (configurazione predefinita)

  • Descrizione della configurazione : CommonGen è un'attività di generazione di testo vincolata, associata a un set di dati di benchmark, per testare esplicitamente le macchine per la capacità di ragionamento generativo di senso comune. Dato un insieme di concetti comuni; il compito è generare una frase coerente che descriva uno scenario quotidiano utilizzando questi concetti.

  • Dimensione del download : 1.84 MiB

  • Dimensione del set di dati: 16.84 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1.497
'train' 67.389
'validation' 993
  • Struttura delle caratteristiche :
'concept_set_id': int32,
'concepts': Sequence(string),
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
concept_set_id Tensore int32
concetti Sequenza (tensore) (Nessuno,) corda
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
  • Descrizione della configurazione : l'attività genera risposte nel contesto di un (ipotetico) sistema di dialogo che fornisce informazioni sui ristoranti. L'input è un tipo di intento di base/atto di dialogo e un elenco di slot (attributi) e i relativi valori. L'output è una frase in linguaggio naturale.

  • Dimensione del download : 1.46 MiB

  • Dimensione del set di dati: 2.71 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 842
'train' 3.569
'validation' 781
  • Struttura delle caratteristiche :
'dialog_act': string,
'dialog_act_delexicalized': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'target_delexicalized': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
dialog_act Tensore corda
dialog_act_delexicalized Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
target_delexicalized Tensore corda
  • Descrizione della configurazione : DART è un corpus di generazione da record DAta a testo strutturato a dominio aperto di grandi dimensioni con annotazioni di frasi di alta qualità con ogni input costituito da un insieme di triple di relazioni di entità che seguono un'ontologia strutturata ad albero.

  • Dimensione del download : 28.01 MiB

  • Dimensione del set di dati: 33.78 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 6.959
'train' 62.659
'validation' 2.768
  • Struttura delle caratteristiche :
'dart_id': int32,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'subtree_was_extended': bool,
'target': string,
'target_sources': Sequence(string),
'tripleset': Sequence(string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
dart_id Tensore int32
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
subtree_was_extended Tensore bool
obbiettivo Tensore corda
target_sources Sequenza (tensore) (Nessuno,) corda
tripletta Sequenza (tensore) (Nessuno,) corda
  • Descrizione della configurazione : il set di dati E2E è progettato per un'attività di conversione dei dati in un dominio limitato: generazione di descrizioni/consigli di ristoranti basati su un massimo di 8 attributi diversi (nome, area, fascia di prezzo, ecc.)

  • Dimensione del download : 13.99 MiB

  • Dimensione del set di dati: 16.92 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 4.693
'train' 33.525
'validation' 4.299
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'meaning_representation': string,
'references': Sequence(string),
'target': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
significato_rappresentazione Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
  • Descrizione della configurazione : MLSum è un set di dati di riepilogo multilingue su larga scala. È costruito da punti vendita di notizie online, questa divisione si concentra sul tedesco.

  • Dimensione del download : 345.98 MiB

  • Dimensione del set di dati: 963.60 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'challenge_test_covid' 5.058
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10.695
'train' 220.748
'validation' 11.392
  • Struttura delle caratteristiche :
'date': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'text': string,
'title': string,
'topic': string,
'url': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Data Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
testo Tensore corda
titolo Tensore corda
argomento Tensore corda
URL Tensore corda
  • Descrizione della configurazione : MLSum è un set di dati di riepilogo multilingue su larga scala. È costruito da punti vendita di notizie online, questa divisione si concentra sullo spagnolo.

  • Dimensione del download : 501.27 MiB

  • Dimensione del set di dati : 1.29 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'challenge_test_covid' 1.938
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 13.366
'train' 259.888
'validation' 9.977
  • Struttura delle caratteristiche :
'date': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'text': string,
'title': string,
'topic': string,
'url': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Data Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
testo Tensore corda
titolo Tensore corda
argomento Tensore corda
URL Tensore corda
  • Descrizione della configurazione : il set di dati Schema-Guided Dialogue (SGD) contiene 18.000 dialoghi orientati alle attività multidominio tra un essere umano e un assistente virtuale, che copre 17 domini che vanno da banche ed eventi a media, calendario, viaggi e meteo.

  • Dimensione del download : 17.00 MiB

  • Dimensione del set di dati: 201.19 MiB

  • Auto-cache ( documentazione ): Sì (challenge_test_backtranslation, challenge_test_bfp02, challenge_test_bfp05, challenge_test_nopunc, challenge_test_scramble, challenge_train_sample, challenge_validation_sample, test, validation), Solo quando shuffle_files=False (train)

  • Divisioni :

Diviso Esempi
'challenge_test_backtranslation' 500
'challenge_test_bfp02' 500
'challenge_test_bfp05' 500
'challenge_test_nopunc' 500
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10.000
'train' 164.982
'validation' 10.000
  • Struttura delle caratteristiche :
'context': Sequence(string),
'dialog_acts': Sequence({
'act': ClassLabel(shape=(), dtype=int64, num_classes=18),
'slot': string,
'values': Sequence(string),
'dialog_id': string,
'gem_id': string,
'gem_parent_id': string,
'prompt': string,
'references': Sequence(string),
'service': string,
'target': string,
'turn_id': int32,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
contesto Sequenza (tensore) (Nessuno,) corda
dialog_acts Sequenza
dialog_acts/act ClassLabel int64
dialog_acts/slot Tensore corda
dialog_acts/values Sequenza (tensore) (Nessuno,) corda
dialog_id Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
richiesta Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
servizio Tensore corda
obbiettivo Tensore corda
turn_id Tensore int32
  • Descrizione della configurazione : ToTTo è un'attività NLG da tabella a testo. Il compito è il seguente: data una tabella di Wikipedia con nomi di righe, nomi di colonne e celle di tabella, con un sottoinsieme di celle evidenziato, generare una descrizione in linguaggio naturale per la parte evidenziata della tabella.

  • Dimensione del download : 180.75 MiB

  • Dimensione del set di dati: 645.86 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 7.700
'train' 121,153
'validation' 7.700
  • Struttura delle caratteristiche :
'example_id': string,
'gem_id': string,
'gem_parent_id': string,
'highlighted_cells': Sequence(Sequence(int32)),
'overlap_subset': string,
'references': Sequence(string),
'sentence_annotations': Sequence({
'final_sentence': string,
'original_sentence': string,
'sentence_after_ambiguity': string,
'sentence_after_deletion': string,
'table': Sequence(Sequence({
'column_span': int32,
'is_header': bool,
'row_span': int32,
'value': string,
'table_page_title': string,
'table_section_text': string,
'table_section_title': string,
'table_webpage_url': string,
'target': string,
'totto_id': int32,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
esempio_id Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
celle_evidenziate Sequenza(Sequenza(Tensore)) (Nessuno, nessuno) int32
sovrapposizione_sottoinsieme Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
frase_annotazioni Sequenza
frase_annotazioni/frase_finale Tensore corda
frase_annotazioni/frase_originale Tensore corda
frase_annotazioni/frase_dopo_ambiguità Tensore corda
frase_annotazioni/frase_dopo_cancellazione Tensore corda
tavolo Sequenza
tabella/colonna_span Tensore int32
table/è_intestazione Tensore bool
table/row_span Tensore int32
tabella/valore Tensore corda
table_page_title Tensore corda
tabella_sezione_testo Tensore corda
table_section_title Tensore corda
table_webpage_url Tensore corda
obbiettivo Tensore corda
totto_id Tensore int32
  • Descrizione della configurazione : WebNLG è un set di dati bilingue (inglese, russo) di triple set parallele di DBpedia e brevi testi che coprono circa 450 diverse proprietà di DBpedia. I dati WebNLG sono stati originariamente creati per promuovere lo sviluppo di verbalizzatori RDF in grado di generare testi brevi e di gestire la micro-pianificazione.

  • Dimensione del download : 12.57 MiB

  • Dimensione del set di dati: 19.91 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'challenge_test_numbers' 500
'challenge_test_scramble' 500
'challenge_train_sample' 502
'challenge_validation_sample' 499
'test' 1.779
'train' 35.426
'validation' 1.667
  • Struttura delle caratteristiche :
'category': string,
'gem_id': string,
'gem_parent_id': string,
'input': Sequence(string),
'references': Sequence(string),
'target': string,
'webnlg_id': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
categoria Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
ingresso Sequenza (tensore) (Nessuno,) corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
webnlg_id Tensore corda
  • Descrizione della configurazione : WebNLG è un set di dati bilingue (inglese, russo) di triple set parallele di DBpedia e brevi testi che coprono circa 450 diverse proprietà di DBpedia. I dati WebNLG sono stati originariamente creati per promuovere lo sviluppo di verbalizzatori RDF in grado di generare testi brevi e di gestire la micro-pianificazione.

  • Dimensione del download : 7.49 MiB

  • Dimensione del set di dati : 11.30 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'challenge_test_scramble' 500
'challenge_train_sample' 501
'challenge_validation_sample' 500
'test' 1.102
'train' 14.630
'validation' 790
  • Struttura delle caratteristiche :
'category': string,
'gem_id': string,
'gem_parent_id': string,
'input': Sequence(string),
'references': Sequence(string),
'target': string,
'webnlg_id': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
categoria Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
ingresso Sequenza (tensore) (Nessuno,) corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
webnlg_id Tensore corda
  • Descrizione della configurazione : WikiAuto fornisce una serie di frasi allineate da Wikipedia in inglese e Wikipedia in inglese semplice come risorsa per addestrare i sistemi di semplificazione delle frasi. ASSET e TURK sono set di dati di semplificazione di alta qualità utilizzati per i test.

  • Dimensioni del download : 121.01 MiB

  • Dimensione del set di dati: 202.40 MiB

  • Auto-cached ( documentation ): Yes (challenge_test_asset_backtranslation, challenge_test_asset_bfp02, challenge_test_asset_bfp05, challenge_test_asset_nopunc, challenge_test_turk_backtranslation, challenge_test_turk_bfp02, challenge_test_turk_bfp05, challenge_test_turk_nopunc, challenge_train_sample, challenge_validation_sample, test_asset, test_turk, validation), Only when shuffle_files=False (train)

  • Divisioni :

Diviso Esempi
'challenge_test_asset_backtranslation' 359
'challenge_test_asset_bfp02' 359
'challenge_test_asset_bfp05' 359
'challenge_test_asset_nopunc' 359
'challenge_test_turk_backtranslation' 359
'challenge_test_turk_bfp02' 359
'challenge_test_turk_bfp05' 359
'challenge_test_turk_nopunc' 359
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test_asset' 359
'test_turk' 359
'train' 483.801
'validation' 20.000
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'target': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
obbiettivo Tensore corda
  • Descrizione della configurazione : il set di dati ha il compito di riepilogo astrattivo nella sua forma estrema, si tratta di riassumere un documento in una singola frase.

  • Dimensione del download : 246.31 MiB

  • Dimensione del set di dati: 78.89 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'challenge_test_backtranslation' 500
'challenge_test_bfp_02' 500
'challenge_test_bfp_05' 500
'challenge_test_covid' 401
'challenge_test_nopunc' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1.166
'train' 23.206
'validation' 1.117
  • Struttura delle caratteristiche :
'document': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'xsum_id': string,
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
documento Tensore corda
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
obbiettivo Tensore corda
xsum_id Tensore corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 56.25 MiB

  • Dimensione del set di dati: 291.42 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 5.841
'train' 20.441
'validation' 2.919
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'ar': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'ar': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/ar Testo corda
source_aligned/it Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/ar Testo corda
target_aligned/it Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 31.38 MiB

  • Dimensione del set di dati: 122.06 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 3.775
'train' 13.211
'validation' 1.886
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/en Testo corda
source_aligned/zh Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/zh Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 13.84 MiB

  • Dimensione del set di dati: 58.05 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 1.438
'train' 5.033
'validation' 718
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/cs Testo corda
source_aligned/it Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/cs Testo corda
target_aligned/it Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 53.88 MiB

  • Dimensione del set di dati: 237.97 MiB

  • Cache automatica ( documentazione ): Sì (test, convalida), solo quando shuffle_files=False (train)

  • Divisioni :

Diviso Esempi
'test' 6.248
'train' 21.866
'validation' 3.123
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/it Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/nl Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 112.56 MiB

  • Dimensione del set di dati: 657.51 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 28.614
'train' 99.020
'validation' 13.823
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 113.26 MiB

  • Dimensione del set di dati: 522.28 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 12.731
'train' 44.556
'validation' 6.364
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/en Testo corda
source_aligned/fr Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/fr Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 102.65 MiB

  • Dimensione del set di dati: 452.46 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 11.669
'train' 40.839
'validation' 5.833
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/de Testo corda
source_aligned/en Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/de Testo corda
target_aligned/it Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 20.07 MiB

  • Dimensione del set di dati: 138.06 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 1.984
'train' 6.942
'validation' 991
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'hi': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'hi': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/en Testo corda
source_aligned/ciao Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/ciao Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 80.08 MiB

  • Dimensione del set di dati: 370.63 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 9.497
'train' 33.237
'validation' 4.747
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/id Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/id Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 84.80 MiB

  • Dimensione del set di dati: 374.40 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 10.189
'train' 35.661
'validation' 5.093
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/en Testo corda
source_aligned/it Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/it Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 21.75 MiB

  • Dimensione del set di dati: 103.19 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 2.530
'train' 8.853
'validation' 1.264
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ja': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ja': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/en Testo corda
source_aligned/ja Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/ja Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 22.26 MiB

  • Dimensione del set di dati: 102.35 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 2.436
'train' 8.524
'validation' 1.216
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ko': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ko': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/ko Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/ko Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 131.17 MiB

  • Dimensione del set di dati: 570.46 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 16.331
'train' 57.159
'validation' 8.165
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/pt Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/pt Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 101.36 MiB

  • Dimensione del set di dati: 564.69 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 10.580
'train' 37.028
'validation' 5.288
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/ru Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/ru Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 189.06 MiB

  • Dimensione del set di dati: 849.75 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 22.632
'train' 79.212
'validation' 11.316
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/es Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/es Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 28.60 MiB

  • Dimensione del set di dati: 193.77 MiB

  • Cache automatica ( documentazione ): Sì (test, convalida), solo quando shuffle_files=False (train)

  • Divisioni :

Diviso Esempi
'test' 2.950
'train' 10.325
'validation' 1.475
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'th': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'th': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/th Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/th Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 6.73 MiB

  • Dimensione del set di dati: 30.75 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 900
'train' 3.148
'validation' 449
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/it Testo corda
source_aligned/tr Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/tr Testo corda
  • Descrizione della configurazione : Wikilingua è un set di dati multilingue su larga scala per la valutazione di sistemi di riepilogo astrattivo interlinguistici.

  • Dimensione del download : 36.27 MiB

  • Dimensione del set di dati: 179.77 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 3.917
'train' 13.707
'validation' 1.957
  • Struttura delle caratteristiche :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'vi': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'vi': Text(shape=(), dtype=string),
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
gem_id Tensore corda
gem_parent_id Tensore corda
Riferimenti Sequenza (tensore) (Nessuno,) corda
fonte Tensore corda
source_aligned Traduzione
source_aligned/en Testo corda
source_aligned/vi Testo corda
obbiettivo Tensore corda
target_aligned Traduzione
target_aligned/it Testo corda
target_aligned/vi Testo corda
