web_nlg

  • Descriptif :

Les données contiennent des ensembles de 1 à 7 triplets de la forme sujet-prédicat-objet extraits de (DBpedia) [ https://wiki.dbpedia.org/ ] et du texte en langage naturel qui est une verbalisation de ces triplets. Les données de test couvrent 15 domaines différents où seulement 10 apparaissent dans les données de formation. L'ensemble de données suit un format de tableau standardisé.

Diviser Exemples
'test_all' 4 928
'test_unseen' 2 433
'train' 18 102
'validation' 2 268
  • Structure des fonctionnalités :
FeaturesDict({
    'input_text': FeaturesDict({
        'context': string,
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
Texte de saisie FonctionnalitésDict
texte_entrée/contexte Tenseur chaîne de caractères
input_text/table Séquence
input_text/table/column_header Tenseur chaîne de caractères
input_text/table/contenu Tenseur chaîne de caractères
input_text/table/row_number Tenseur int16
texte_cible Tenseur chaîne de caractères
  • Citation :
@inproceedings{gardent2017creating,
    title = ""Creating Training Corpora for {NLG} Micro-Planners"",
    author = ""Gardent, Claire  and
      Shimorina, Anastasia  and
      Narayan, Shashi  and
      Perez-Beltrachini, Laura"",
    booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
    month = jul,
    year = ""2017"",
    address = ""Vancouver, Canada"",
    publisher = ""Association for Computational Linguistics"",
    doi = ""10.18653/v1/P17-1017"",
    pages = ""179--188"",
    url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}