aset

Deskripsi :

ASSET adalah kumpulan data untuk mengevaluasi sistem Penyederhanaan Kalimat dengan beberapa transformasi penulisan ulang, seperti yang dijelaskan dalam "ASSET: Kumpulan Data untuk Penyesuaian dan Evaluasi Model Penyederhanaan Kalimat dengan Transformasi Penulisan Ulang Beberapa." Korpus terdiri dari 2000 validasi dan 359 kalimat asli uji yang masing-masing disederhanakan 10 kali oleh anotator yang berbeda. Korpus juga berisi penilaian manusia tentang pelestarian makna, kelancaran dan kesederhanaan untuk keluaran dari beberapa sistem penyederhanaan teks otomatis.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/facebookresearch/asset
Kode sumber : tfds.datasets.asset.Builder
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : 3.47 MiB
Di-cache otomatis ( dokumentasi ): Ya
Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

aset/penyederhanaan (konfigurasi default)

Deskripsi konfigurasi : Serangkaian kalimat asli yang diselaraskan dengan 10 kemungkinan penyederhanaan untuk masing-masing kalimat.
Ukuran dataset : 2.64 MiB
Perpecahan :

Membelah	Contoh
`'test'`	359
`'validation'`	2.000

Struktur fitur :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
asli	Teks		rangkaian
penyederhanaan	Urutan (Teks)	(Tidak ada,)	rangkaian

Contoh ( tfds.as_dataframe ):

aset/peringkat

Deskripsi konfigurasi : Peringkat manusia dari penyederhanaan teks yang dihasilkan secara otomatis.
Ukuran dataset : 1.44 MiB
Perpecahan :

Membelah	Contoh
`'full'`	4.500

Struktur fitur :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
aspek	LabelKelas	int64
asli	Teks	rangkaian
id_kalimat_asli	Tensor	int32
peringkat	Tensor	int32
penyederhanaan	Teks	rangkaian
pekerja_id	Tensor	int32

Contoh ( tfds.as_dataframe ):

aset Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

aset/penyederhanaan (konfigurasi default)

aset/peringkat

aset