- 説明:
SAMSum Corpus には、手動で注釈が付けられた要約を含む 16,000 を超えるチャット ダイアログが含まれています。
次の 2 つの機能があります。
- dialog: ダイアログのテキスト。
- summary: 人間が書いた対話の要約。
id: 例の ID。
追加のドキュメント:コード を使用したペーパーの探索
ソース コード:
tfds.datasets.samsum.Builder
バージョン:
-
1.0.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown size
データセットサイズ:
10.71 MiB
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
https://arxiv.org/src/1911.12237v2/anc/corpus.7z をダウンロードし、解凍して train.json、val.json、test.json を manual フォルダーに配置します。自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- 機能構造:
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ダイアログ | 文章 | ストリング | ||
ID | 文章 | ストリング | ||
まとめ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('dialogue', 'summary')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}