- Deskripsi :
ASSET adalah kumpulan data untuk mengevaluasi sistem Penyederhanaan Kalimat dengan beberapa transformasi penulisan ulang, seperti yang dijelaskan dalam "ASSET: Kumpulan Data untuk Penyesuaian dan Evaluasi Model Penyederhanaan Kalimat dengan Transformasi Penulisan Ulang Beberapa." Korpus terdiri dari 2000 validasi dan 359 kalimat asli uji yang masing-masing disederhanakan 10 kali oleh anotator yang berbeda. Korpus juga berisi penilaian manusia tentang pelestarian makna, kelancaran dan kesederhanaan untuk keluaran dari beberapa sistem penyederhanaan teks otomatis.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.asset.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
3.47 MiB
Di-cache otomatis ( dokumentasi ): Ya
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
aset/penyederhanaan (konfigurasi default)
Deskripsi konfigurasi : Serangkaian kalimat asli yang diselaraskan dengan 10 kemungkinan penyederhanaan untuk masing-masing kalimat.
Ukuran dataset :
2.64 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 359 |
'validation' | 2.000 |
- Struktur fitur :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
asli | Teks | rangkaian | ||
penyederhanaan | Urutan (Teks) | (Tidak ada,) | rangkaian |
- Contoh ( tfds.as_dataframe ):
aset/peringkat
Deskripsi konfigurasi : Peringkat manusia dari penyederhanaan teks yang dihasilkan secara otomatis.
Ukuran dataset :
1.44 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'full' | 4.500 |
- Struktur fitur :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
aspek | LabelKelas | int64 | ||
asli | Teks | rangkaian | ||
id_kalimat_asli | Tensor | int32 | ||
peringkat | Tensor | int32 | ||
penyederhanaan | Teks | rangkaian | ||
pekerja_id | Tensor | int32 |
- Contoh ( tfds.as_dataframe ):