assin2

  • Deskripsi :

Kontekstualisasi

ASSIN 2 adalah edisi kedua dari Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), dan merupakan lokakarya yang diselenggarakan bersama dengan STIL 2019 . Ini mengikuti edisi pertama ASSIN , mengusulkan tugas bersama baru dengan data baru.

Lokakarya mengevaluasi sistem yang menilai dua jenis hubungan antara dua kalimat: Semantic Textual Similarity dan Textual Entailment.

Kesamaan Tekstual Semantik terdiri dari mengkuantifikasi tingkat kesetaraan semantik antara kalimat, sedangkan Pengenalan Entailmen Tekstual terdiri dari mengklasifikasikan apakah kalimat pertama memerlukan kalimat kedua.

Data

Korpus yang digunakan dalam ASSIN 2 terdiri dari kalimat-kalimat yang agak sederhana. Mengikuti prosedur SemEval 2014 Tugas 1, kami mencoba untuk menghapus dari korpus bernama entitas dan ucapan tidak langsung, dan mencoba untuk memiliki semua kata kerja dalam bentuk waktu sekarang. Petunjuk anotasi yang diberikan kepada annotator tersedia (dalam bahasa Portugis).

Data pelatihan dan validasi masing-masing terdiri dari 6.500 dan 500 pasangan kalimat dalam bahasa Portugis-Brasil, dianotasi untuk keterkaitan dan kesamaan semantik. Nilai kesamaan semantik berkisar dari 1 sampai 5, dan kelas-kelas keterlibatkan teks adalah keteraturan atau tidak sama sekali. Data uji terdiri dari sekitar 3.000 pasangan kalimat dengan anotasi yang sama. Semua data dianotasi secara manual.

Evaluasi

Evaluasi Evaluasi kiriman ke ASSIN 2 menggunakan metrik yang sama dengan ASSIN pertama, dengan F1 presisi dan penarikan kembali sebagai metrik utama untuk keterlibatan teks dan korelasi Pearson untuk kesamaan semantik. Skrip evaluasi masih sama dengan edisi sebelumnya.

PS.: Deskripsi diekstrak dari beranda resmi .

Membelah Contoh
'test' 2.448
'train' 6.500
'validation' 500
  • Struktur fitur :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
persyaratan LabelKelas int64
hipotesa Teks rangkaian
Indo Tensor int32
kesamaan Tensor float32
teks Teks rangkaian
  • Kutipan :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}