アセット

  • 説明:

ASSET は、「ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations」で説明されているように、複数の書き換え変換を伴う文簡略化システムを評価するためのデータセットです。コーパスは、異なるアノテーターによってそれぞれ 10 回簡略化された 2000 の検証と 359 のテスト原文で構成されています。コーパスには、いくつかの自動テキスト簡略化システムの出力に対する、意味の保持、流暢さ、および単純さに関する人間の判断も含まれています。

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

asset/simplification (デフォルト設定)

  • 構成の説明: それぞれ 10 個の簡略化が可能な元の文章のセット。

  • データセットサイズ: 2.64 MiB

  • スプリット:

スプリット
'test' 359
'validation' 2,000
  • 機能構造:
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
オリジナル文章ストリング
単純化シーケンス(テキスト) (なし、)ストリング

資産/評価

  • 構成の説明: 自動生成されたテキストの簡略化に対する人間の評価。

  • データセットサイズ: 1.44 MiB

  • スプリット:

スプリット
'full' 4,500
  • 機能構造:
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
側面クラスラベルint64
オリジナル文章ストリング
original_sentence_idテンソルint32
評価テンソルint32
簡素化文章ストリング
worker_idテンソルint32