web_nlg

  • Deskripsi :

Data berisi kumpulan 1 hingga 7 rangkap tiga bentuk subjek-predikat-objek yang diekstrak dari (DBpedia)[ https://wiki.dbpedia.org/ ] dan teks bahasa alami yang merupakan verbalisasi dari rangkap tiga ini. Data pengujian mencakup 15 domain berbeda di mana hanya 10 yang muncul di data pelatihan. Dataset mengikuti format tabel standar.

Membelah Contoh
'test_all' 4.928
'test_unseen' 2.433
'train' 18.102
'validation' 2.268
  • Struktur fitur :
FeaturesDict({
    'input_text': FeaturesDict({
        'context': string,
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
Masukkan teks fiturDict
masukan_teks/konteks Tensor rangkaian
masukan_teks/tabel Urutan
input_text/table/column_header Tensor rangkaian
input_teks/tabel/konten Tensor rangkaian
input_teks/tabel/nomor_baris Tensor int16
target_text Tensor rangkaian
  • Kutipan :
@inproceedings{gardent2017creating,
    title = ""Creating Training Corpora for {NLG} Micro-Planners"",
    author = ""Gardent, Claire  and
      Shimorina, Anastasia  and
      Narayan, Shashi  and
      Perez-Beltrachini, Laura"",
    booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
    month = jul,
    year = ""2017"",
    address = ""Vancouver, Canada"",
    publisher = ""Association for Computational Linguistics"",
    doi = ""10.18653/v1/P17-1017"",
    pages = ""179--188"",
    url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}