wiki_auto

Deskripsi :

WikiAuto menyediakan kumpulan kalimat selaras dari Wikipedia Bahasa Inggris dan Wikipedia Bahasa Inggris Sederhana sebagai sumber untuk melatih sistem penyederhanaan kalimat. Para penulis pertama-tama mengumpulkan kumpulan penyelarasan manual antara kalimat dalam subset Wikipedia Bahasa Inggris Sederhana dan versi yang sesuai di Wikipedia bahasa Inggris (ini sesuai dengan konfigurasi manual ), kemudian melatih sistem CRF saraf untuk memprediksi penyelarasan ini. Model yang dilatih kemudian diterapkan ke artikel lain di Wikipedia Bahasa Inggris Sederhana dengan padanan bahasa Inggris untuk membuat korpus kalimat selaras yang lebih besar (sesuai dengan konfigurasi auto , auto_acl , auto_full_no_split , dan auto_full_with_split di sini).

Beranda : https://github.com/chaojiang06/wiki-auto
Kode sumber : tfds.text_simplification.wiki_auto.WikiAuto
Versi :
- 1.0.0 (default): Rilis awal.
Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (konfigurasi default)

Deskripsi konfigurasi : Satu set 10K pasangan kalimat Wikipedia yang diselaraskan oleh pekerja kerumunan.
Ukuran unduhan : 53.47 MiB
Ukuran dataset : 76.87 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'dev'`	73.249
`'test'`	118.074

Struktur fitur :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
skor GLEU	Tensor	float64
perataan_label	LabelKelas	int64
kalimat_normal	Teks	rangkaian
normal_kalimat_id	Teks	rangkaian
kalimat sederhana	Teks	rangkaian
simple_kalimat_id	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

wiki_auto/auto_acl

Deskripsi konfigurasi : Pasangan kalimat diselaraskan untuk melatih sistem ACL2020.
Ukuran unduhan : 112.60 MiB
Ukuran dataset : 138.83 MiB
Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (full)
Perpecahan :

Membelah	Contoh
`'full'`	488.332

Struktur fitur :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
kalimat_normal	Teks	rangkaian
kalimat sederhana	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

Deskripsi konfigurasi : Semua pasangan kalimat yang disejajarkan secara otomatis tanpa pemisahan kalimat.
Ukuran unduhan : 135.02 MiB
Ukuran dataset : 166.78 MiB
Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (full)
Perpecahan :

Membelah	Contoh
`'full'`	591.994

Struktur fitur :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
kalimat_normal	Teks	rangkaian
kalimat sederhana	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

Deskripsi konfigurasi : Semua pasangan kalimat yang diselaraskan secara otomatis dengan pemisahan kalimat.
Ukuran unduhan : 115.09 MiB
Ukuran dataset : 141.20 MiB
Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (full)
Perpecahan :

Membelah	Contoh
`'full'`	483.801

Struktur fitur :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
kalimat_normal	Teks	rangkaian
kalimat sederhana	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

wiki_auto/otomatis

Deskripsi konfigurasi : Kumpulan besar pasangan kalimat yang disejajarkan secara otomatis.
Ukuran unduhan : 2.01 GiB
Ukuran dataset : 1.76 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'part_1'`	125.059
`'part_2'`	13.036

Struktur fitur :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
example_id	Teks	rangkaian
normal	fiturDict
normal/normal_article_content	Urutan
normal/normal_article_content/normal_sentence	Teks	rangkaian
normal/normal_article_content/normal_sentence_id	Teks	rangkaian
normal/normal_article_id	Tensor	int32
normal/normal_article_title	Teks	rangkaian
normal/normal_artikel_url	Teks	rangkaian
penyelarasan_paragraf	Urutan
paragraf_alignment/normal_paragraph_id	Teks	rangkaian
paragraf_alignment/simple_paragraph_id	Teks	rangkaian
kalimat_alignment	Urutan
kalimat_penyelarasan/id_kalimat_normal	Teks	rangkaian
kalimat_penyelarasan/simple_kalimat_id	Teks	rangkaian
sederhana	fiturDict
sederhana/konten_artikel_sederhana	Urutan
sederhana/konten_artikel_sederhana/kalimat_sederhana	Teks	rangkaian
simple/simple_article_content/simple_sentence_id	Teks	rangkaian
simple/simple_article_id	Tensor	int32
simple/simple_article_title	Teks	rangkaian
sederhana/simple_artikel_url	Teks	rangkaian

Contoh ( tfds.as_dataframe ):