- Açıklama :
SAMSum Corpus, manuel olarak açıklamalı özetlerle birlikte 16 binden fazla sohbet diyaloğu içerir.
İki özellik vardır:
- diyalog: diyalog metni.
- özet: diyaloğun insan yazılı özeti.
id: bir örneğin kimliği.
Ek Belgeler : Belgeleri Keşfedin
Anasayfa : https://arxiv.org/src/1911.12237v2/anc
Kaynak kodu :
tfds.datasets.samsum.Buildersürümler :
-
1.0.0(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown sizeVeri kümesi boyutu :
10.71 MiBManuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dirgerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/):
https://arxiv.org/src/1911.12237v2/anc/corpus.7z dosyasını indirin, sıkıştırılmış dosyayı açın ve train.json, val.json ve test.json dosyalarını kılavuz klasörüne yerleştirin.Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
| Bölmek | örnekler |
|---|---|
'test' | 819 |
'train' | 14.732 |
'validation' | 818 |
- Özellik yapısı :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
| Özellik | Sınıf | Şekil | Dtipi | Açıklama |
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| diyalog | Metin | sicim | ||
| İD | Metin | sicim | ||
| özet | Metin | sicim |
Denetlenen tuşlar (Bkz
as_superviseddoc ):('dialogue', 'summary')Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}