- Deskripsi :
Kontekstualisasi
ASSIN 2 adalah edisi kedua dari Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), dan merupakan lokakarya yang diselenggarakan bersama dengan STIL 2019 . Ini mengikuti edisi pertama ASSIN , mengusulkan tugas bersama baru dengan data baru.
Lokakarya mengevaluasi sistem yang menilai dua jenis hubungan antara dua kalimat: Semantic Textual Similarity dan Textual Entailment.
Kesamaan Tekstual Semantik terdiri dari mengkuantifikasi tingkat kesetaraan semantik antara kalimat, sedangkan Pengenalan Entailmen Tekstual terdiri dari mengklasifikasikan apakah kalimat pertama memerlukan kalimat kedua.
Data
Korpus yang digunakan dalam ASSIN 2 terdiri dari kalimat-kalimat yang agak sederhana. Mengikuti prosedur SemEval 2014 Tugas 1, kami mencoba untuk menghapus dari korpus bernama entitas dan ucapan tidak langsung, dan mencoba untuk memiliki semua kata kerja dalam bentuk waktu sekarang. Petunjuk anotasi yang diberikan kepada annotator tersedia (dalam bahasa Portugis).
Data pelatihan dan validasi masing-masing terdiri dari 6.500 dan 500 pasangan kalimat dalam bahasa Portugis-Brasil, dianotasi untuk keterkaitan dan kesamaan semantik. Nilai kesamaan semantik berkisar dari 1 sampai 5, dan kelas-kelas keterlibatkan teks adalah keteraturan atau tidak sama sekali. Data uji terdiri dari sekitar 3.000 pasangan kalimat dengan anotasi yang sama. Semua data dianotasi secara manual.
Evaluasi
Evaluasi Evaluasi kiriman ke ASSIN 2 menggunakan metrik yang sama dengan ASSIN pertama, dengan F1 presisi dan penarikan kembali sebagai metrik utama untuk keterlibatan teks dan korelasi Pearson untuk kesamaan semantik. Skrip evaluasi masih sama dengan edisi sebelumnya.
PS.: Deskripsi diekstrak dari beranda resmi .
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.assin2.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
2.02 MiB
Ukuran dataset :
1.82 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.448 |
'train' | 6.500 |
'validation' | 500 |
- Struktur fitur :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
persyaratan | LabelKelas | int64 | ||
hipotesa | Teks | rangkaian | ||
Indo | Tensor | int32 | ||
kesamaan | Tensor | float32 | ||
teks | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}