- Deskripsi :
WikiAuto menyediakan kumpulan kalimat selaras dari Wikipedia Bahasa Inggris dan Wikipedia Bahasa Inggris Sederhana sebagai sumber untuk melatih sistem penyederhanaan kalimat. Para penulis pertama-tama mengumpulkan kumpulan penyelarasan manual antara kalimat dalam subset Wikipedia Bahasa Inggris Sederhana dan versi yang sesuai di Wikipedia bahasa Inggris (ini sesuai dengan konfigurasi manual
), kemudian melatih sistem CRF saraf untuk memprediksi penyelarasan ini. Model yang dilatih kemudian diterapkan ke artikel lain di Wikipedia Bahasa Inggris Sederhana dengan padanan bahasa Inggris untuk membuat korpus kalimat selaras yang lebih besar (sesuai dengan konfigurasi auto
, auto_acl
, auto_full_no_split
, dan auto_full_with_split
di sini).
Beranda : https://github.com/chaojiang06/wiki-auto
Kode sumber :
tfds.text_simplification.wiki_auto.WikiAuto
Versi :
-
1.0.0
(default): Rilis awal.
-
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (konfigurasi default)
Deskripsi konfigurasi : Satu set 10K pasangan kalimat Wikipedia yang diselaraskan oleh pekerja kerumunan.
Ukuran unduhan :
53.47 MiB
Ukuran dataset :
76.87 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'dev' | 73.249 |
'test' | 118.074 |
- Struktur fitur :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
skor GLEU | Tensor | float64 | ||
perataan_label | LabelKelas | int64 | ||
kalimat_normal | Teks | rangkaian | ||
normal_kalimat_id | Teks | rangkaian | ||
kalimat sederhana | Teks | rangkaian | ||
simple_kalimat_id | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
wiki_auto/auto_acl
Deskripsi konfigurasi : Pasangan kalimat diselaraskan untuk melatih sistem ACL2020.
Ukuran unduhan :
112.60 MiB
Ukuran dataset :
138.83 MiB
Auto-cached ( dokumentasi ): Hanya ketika
shuffle_files=False
(full)Perpecahan :
Membelah | Contoh |
---|---|
'full' | 488.332 |
- Struktur fitur :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
kalimat_normal | Teks | rangkaian | ||
kalimat sederhana | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Deskripsi konfigurasi : Semua pasangan kalimat yang disejajarkan secara otomatis tanpa pemisahan kalimat.
Ukuran unduhan :
135.02 MiB
Ukuran dataset :
166.78 MiB
Auto-cached ( dokumentasi ): Hanya ketika
shuffle_files=False
(full)Perpecahan :
Membelah | Contoh |
---|---|
'full' | 591.994 |
- Struktur fitur :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
kalimat_normal | Teks | rangkaian | ||
kalimat sederhana | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Deskripsi konfigurasi : Semua pasangan kalimat yang diselaraskan secara otomatis dengan pemisahan kalimat.
Ukuran unduhan :
115.09 MiB
Ukuran dataset :
141.20 MiB
Auto-cached ( dokumentasi ): Hanya ketika
shuffle_files=False
(full)Perpecahan :
Membelah | Contoh |
---|---|
'full' | 483.801 |
- Struktur fitur :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
kalimat_normal | Teks | rangkaian | ||
kalimat sederhana | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
wiki_auto/otomatis
Deskripsi konfigurasi : Kumpulan besar pasangan kalimat yang disejajarkan secara otomatis.
Ukuran unduhan :
2.01 GiB
Ukuran dataset :
1.76 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'part_1' | 125.059 |
'part_2' | 13.036 |
- Struktur fitur :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
example_id | Teks | rangkaian | ||
normal | fiturDict | |||
normal/normal_article_content | Urutan | |||
normal/normal_article_content/normal_sentence | Teks | rangkaian | ||
normal/normal_article_content/normal_sentence_id | Teks | rangkaian | ||
normal/normal_article_id | Tensor | int32 | ||
normal/normal_article_title | Teks | rangkaian | ||
normal/normal_artikel_url | Teks | rangkaian | ||
penyelarasan_paragraf | Urutan | |||
paragraf_alignment/normal_paragraph_id | Teks | rangkaian | ||
paragraf_alignment/simple_paragraph_id | Teks | rangkaian | ||
kalimat_alignment | Urutan | |||
kalimat_penyelarasan/id_kalimat_normal | Teks | rangkaian | ||
kalimat_penyelarasan/simple_kalimat_id | Teks | rangkaian | ||
sederhana | fiturDict | |||
sederhana/konten_artikel_sederhana | Urutan | |||
sederhana/konten_artikel_sederhana/kalimat_sederhana | Teks | rangkaian | ||
simple/simple_article_content/simple_sentence_id | Teks | rangkaian | ||
simple/simple_article_id | Tensor | int32 | ||
simple/simple_article_title | Teks | rangkaian | ||
sederhana/simple_artikel_url | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):