assin2

Deskripsi :

Kontekstualisasi

ASSIN 2 adalah edisi kedua dari Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), dan merupakan lokakarya yang diselenggarakan bersama dengan STIL 2019 . Ini mengikuti edisi pertama ASSIN , mengusulkan tugas bersama baru dengan data baru.

Lokakarya mengevaluasi sistem yang menilai dua jenis hubungan antara dua kalimat: Semantic Textual Similarity dan Textual Entailment.

Kesamaan Tekstual Semantik terdiri dari mengkuantifikasi tingkat kesetaraan semantik antara kalimat, sedangkan Pengenalan Entailmen Tekstual terdiri dari mengklasifikasikan apakah kalimat pertama memerlukan kalimat kedua.

Data

Korpus yang digunakan dalam ASSIN 2 terdiri dari kalimat-kalimat yang agak sederhana. Mengikuti prosedur SemEval 2014 Tugas 1, kami mencoba untuk menghapus dari korpus bernama entitas dan ucapan tidak langsung, dan mencoba untuk memiliki semua kata kerja dalam bentuk waktu sekarang. Petunjuk anotasi yang diberikan kepada annotator tersedia (dalam bahasa Portugis).

Data pelatihan dan validasi masing-masing terdiri dari 6.500 dan 500 pasangan kalimat dalam bahasa Portugis-Brasil, dianotasi untuk keterkaitan dan kesamaan semantik. Nilai kesamaan semantik berkisar dari 1 sampai 5, dan kelas-kelas keterlibatkan teks adalah keteraturan atau tidak sama sekali. Data uji terdiri dari sekitar 3.000 pasangan kalimat dengan anotasi yang sama. Semua data dianotasi secara manual.

Evaluasi

Evaluasi Evaluasi kiriman ke ASSIN 2 menggunakan metrik yang sama dengan ASSIN pertama, dengan F1 presisi dan penarikan kembali sebagai metrik utama untuk keterlibatan teks dan korelasi Pearson untuk kesamaan semantik. Skrip evaluasi masih sama dengan edisi sebelumnya.

PS.: Deskripsi diekstrak dari beranda resmi .

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://sites.google.com/view/assin2/english
Kode sumber : tfds.datasets.assin2.Builder
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : 2.02 MiB
Ukuran dataset : 1.82 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	2.448
`'train'`	6.500
`'validation'`	500

Struktur fitur :

FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
persyaratan	LabelKelas	int64
hipotesa	Teks	rangkaian
Indo	Tensor	int32
kesamaan	Tensor	float32
teks	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

assin2 Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Kontekstualisasi

Data

Evaluasi

assin2