wiki_auto

  • 説明:

WikiAuto は、文簡略化システムをトレーニングするためのリソースとして、英語版ウィキペディアと簡易英語版ウィキペディアから整列された一連の文を提供します。著者はまず、Simple English Wikipedia のサブセット内のセンテンスと英語版 Wikipedia の対応するバージョン (これはmanual構成に対応する) との間の一連の手動アラインメントをクラウドソーシングし、次にこれらのアラインメントを予測するようにニューラル CRF システムをトレーニングしました。次に、訓練されたモデルをシンプルな英語のウィキペディアの他の記事に適用し、対応する英語の記事を作成して、整列された文のより大きなコーパスを作成しました (ここのautoauto_aclauto_full_no_split 、およびauto_full_with_split構成に対応します)。

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (デフォルト設定)

  • 構成の説明: クラウド ワーカーによって整列された 10,000 のウィキペディア文のペアのセット。

  • ダウンロードサイズ: 53.47 MiB

  • データセットのサイズ: 76.87 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'dev' 73,249
'test' 118,074
  • 機能構造:
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
GLEUスコアテンソルfloat64
配置ラベルクラスラベルint64
normal_sentence文章ストリング
normal_sentence_id文章ストリング
シンプルな文文章ストリング
simple_sentence_id文章ストリング

wiki_auto/auto_acl

  • 構成の説明: ACL2020 システムをトレーニングするために配置された文のペア。

  • ダウンロードサイズ: 112.60 MiB

  • データセットのサイズ: 138.83 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=False (full) の場合のみ

  • スプリット:

スプリット
'full' 488,332
  • 機能構造:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
normal_sentence文章ストリング
シンプルな文文章ストリング

wiki_auto/auto_full_no_split

  • 構成の説明: 文を分割せずに、すべての文のペアを自動的に並べます。

  • ダウンロードサイズ: 135.02 MiB

  • データセットのサイズ: 166.78 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=False (full) の場合のみ

  • スプリット:

スプリット
'full' 591,994
  • 機能構造:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
normal_sentence文章ストリング
シンプルな文文章ストリング

wiki_auto/auto_full_with_split

  • 構成の説明: 文の分割を使用して、すべての文のペアを自動的に並べます。

  • ダウンロードサイズ: 115.09 MiB

  • データセットサイズ: 141.20 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=False (full) の場合のみ

  • スプリット:

スプリット
'full' 483,801
  • 機能構造:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
normal_sentence文章ストリング
シンプルな文文章ストリング

wiki_auto/auto

  • 構成の説明: 自動的に整列された文のペアの大規模なセット。

  • ダウンロードサイズ: 2.01 GiB

  • データセットサイズ: 1.76 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'part_1' 125,059
'part_2' 13,036
  • 機能構造:
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
example_id文章ストリング
正常特徴辞書
normal/normal_article_content順序
normal/normal_article_content/normal_sentence文章ストリング
normal/normal_article_content/normal_sentence_id文章ストリング
normal/normal_article_idテンソルint32
normal/normal_article_title文章ストリング
normal/normal_article_url文章ストリング
段落配置順序
paragraph_alignment/normal_paragraph_id文章ストリング
paragraph_alignment/simple_paragraph_id文章ストリング
文の配置順序
文の配置/normal_sentence_id文章ストリング
文の配置/simple_sentence_id文章ストリング
単純特徴辞書
simple/simple_article_content順序
シンプル/シンプル_記事_コンテンツ/シンプル_文文章ストリング
simple/simple_article_content/simple_sentence_id文章ストリング
simple/simple_article_idテンソルint32
simple/simple_article_title文章ストリング
simple/simple_article_url文章ストリング