assin2

  • 説明:

文脈化

ASSIN 2 は Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment) の第 2 版であり、 STIL 2019と併催されたワークショップでした。これは ASSIN の初版に続き、新しいデータを使用した新しい共有タスクを提案しています。

ワークショップでは、2 つの文の間の 2 種類の関係を評価するシステムが評価されました。意味的テキスト類似性とテキスト含意です。

意味的テキスト類似性は、文間の意味的同等性のレベルを定量化することで構成され、テキスト含意認識は、最初の文が 2 番目の文を伴うかどうかを分類することで構成されます。

データ

ASSIN 2 で使用されるコーパスは、かなり単純な文章で構成されています。 SemEval 2014 タスク 1 の手順に従って、コーパスから固有表現と間接話法を削除し、すべての動詞を現在形にしようとしました。注釈者に与えられる注釈指示が利用可能です (ポルトガル語)。

トレーニング データと検証データは、それぞれブラジル ポルトガル語の 6,500 文と 500 文のペアで構成され、含意と意味の類似性について注釈が付けられています。意味的類似度の値の範囲は 1 ~ 5 で、テキスト含意クラスは含意またはなしのいずれかです。テスト データは、同じ注釈を持つ約 3,000 の文のペアで構成されます。すべてのデータに手動で注釈が付けられました。

評価

評価 ASSIN 2 への提出物の評価は、最初の ASSIN と同じメトリクスを使用して行われました。精度とリコールの F1 がテキスト含意の主要なメトリクスであり、ピアソン相関が意味的類似性についてありました。評価スクリプトは前版と同じです。

PS.: 説明は公式ホームページより抜粋。

スプリット
'test' 2,448
'train' 6,500
'validation' 500
  • 機能構造:
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
含意クラスラベルint64
仮説文章ストリング
IDテンソルint32
類似性テンソルfloat32
文章文章ストリング
  • 引用
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}