- Açıklama :
TIFU'nun subbreddit /r/tifu adını gösterdiği Reddit veri kümesi. Yayında tanımlandığı gibi, "kısa" stili özet olarak başlığı kullanır ve "uzun", özet olarak tldr'yi kullanır.
Özellikler şunları içerir:
- belge: tldr olmadan metin gönderin.
- tldr: tldr satırı.
- başlık: tldr olmadan kırpılmış başlık.
- ups: olumlu oylar.
- puan: puan.
- num_comments: yorum sayısı.
upvote_ratio: olumlu oy oranı.
Anasayfa : https://github.com/ctr4si/MMN
Kaynak kodu :
tfds.datasets.reddit_tifu.Builder
sürümler :
-
1.1.0
: Boş belge ve özet dizilerini kaldırın. -
1.1.1
: PEGASUS'ta ( https://arxiv.org/abs/1912.08777 ) kullanılan train, dev ve test (80/10/10) split'lerini ayrı bir yapılandırmada ekleyin. Bunlar, tfds bölme işlevi kullanılarak rastgele oluşturuldu ve Reddit Tifu Long'daki sonuçların tekrarlanabilir ve karşılaştırılabilir olmasını sağlamak için yayınlanıyor.Ayrıca veri noktalarınaid
ekleyin. -
1.1.2
(varsayılan): Düzeltilmiş bölmeler yüklendi.
-
Özellik yapısı :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
belgeler | Metin | sicim | ||
İD | Metin | sicim | ||
yorum sayısı | tensör | şamandıra32 | ||
Puan | tensör | şamandıra32 | ||
Başlık | Metin | sicim | ||
tldr | Metin | sicim | ||
Güç kaynağı | tensör | şamandıra32 | ||
artı oy oranı | tensör | şamandıra32 |
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (varsayılan yapılandırma)
Yapılandırma açıklaması : Özet olarak başlık kullanılıyor.
İndirme boyutu :
639.54 MiB
Veri kümesi boyutu :
141.46 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca
shuffle_files=False
(tren) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'train' | 79.740 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('documents', 'title')
Örnekler ( tfds.as_dataframe ):
reddit_tifu/uzun
Yapılandırma açıklaması : Özet olarak TLDR kullanılıyor.
İndirme boyutu :
639.54 MiB
Veri kümesi boyutu :
93.10 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 42.139 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('documents', 'tldr')
Örnekler ( tfds.as_dataframe ):
reddit_tifu/uzun_split
Yapılandırma açıklaması : TLDR'yi özet olarak kullanma ve tren/test/geliştirme bölümlerine dönüş.
İndirme boyutu :
639.94 MiB
Veri kümesi boyutu :
93.10 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 4.214 |
'train' | 33.711 |
'validation' | 4.214 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('documents', 'tldr')
Örnekler ( tfds.as_dataframe ):