reddit_tifu
Koleksiyonlar ile düzeninizi koruyun
İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
TIFU'nun subbreddit /r/tifu adını gösterdiği Reddit veri kümesi. Yayında tanımlandığı gibi, "kısa" stili özet olarak başlığı kullanır ve "uzun", özet olarak tldr'yi kullanır.
Özellikler şunları içerir:
- belge: tldr olmadan metin gönderin.
- tldr: tldr satırı.
- başlık: tldr olmadan kırpılmış başlık.
- ups: olumlu oylar.
- puan: puan.
- num_comments: yorum sayısı.
upvote_ratio: olumlu oy oranı.
Ek Belgeler : north_east Belgeleri Keşfedin
Anasayfa : https://github.com/ctr4si/MMN
Kaynak kodu : tfds.datasets.reddit_tifu.Builder
sürümler :
-
1.1.0
: Boş belge ve özet dizilerini kaldırın. -
1.1.1
: PEGASUS'ta ( https://arxiv.org/abs/1912.08777 ) kullanılan train, dev ve test (80/10/10) split'lerini ayrı bir yapılandırmada ekleyin. Bunlar, tfds bölme işlevi kullanılarak rastgele oluşturuldu ve Reddit Tifu Long'daki sonuçların tekrarlanabilir ve karşılaştırılabilir olmasını sağlamak için yayınlanıyor.Ayrıca veri noktalarına id
ekleyin. -
1.1.2
(varsayılan): Düzeltilmiş bölmeler yüklendi.
Özellik yapısı :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|
| ÖzelliklerDict | | | |
belgeler | Metin | | sicim | |
İD | Metin | | sicim | |
yorum sayısı | tensör | | şamandıra32 | |
Puan | tensör | | şamandıra32 | |
Başlık | Metin | | sicim | |
tldr | Metin | | sicim | |
Güç kaynağı | tensör | | şamandıra32 | |
artı oy oranı | tensör | | şamandıra32 | |
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (varsayılan yapılandırma)
Yapılandırma açıklaması : Özet olarak başlık kullanılıyor.
İndirme boyutu : 639.54 MiB
Veri kümesi boyutu : 141.46 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False
(tren) olduğunda
bölmeler :
Bölmek | örnekler |
---|
'train' | 79.740 |
reddit_tifu/uzun
Yapılandırma açıklaması : Özet olarak TLDR kullanılıyor.
İndirme boyutu : 639.54 MiB
Veri kümesi boyutu : 93.10 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|
'train' | 42.139 |
reddit_tifu/uzun_split
Yapılandırma açıklaması : TLDR'yi özet olarak kullanma ve tren/test/geliştirme bölümlerine dönüş.
İndirme boyutu : 639.94 MiB
Veri kümesi boyutu : 93.10 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|
'test' | 4.214 |
'train' | 33.711 |
'validation' | 4.214 |
Aksi belirtilmediği sürece bu sayfanın içeriği Creative Commons Atıf 4.0 Lisansı altında ve kod örnekleri Apache 2.0 Lisansı altında lisanslanmıştır. Ayrıntılı bilgi için Google Developers Site Politikaları'na göz atın. Java, Oracle ve/veya satış ortaklarının tescilli ticari markasıdır.
Son güncelleme tarihi: 2022-12-23 UTC.
[null,null,["Son güncelleme tarihi: 2022-12-23 UTC."],[],[],null,["# reddit_tifu\n\n\u003cbr /\u003e\n\n- **Description**:\n\nReddit dataset, where TIFU denotes the name of subbreddit /r/tifu. As defined in\nthe publication, style \"short\" uses title as summary and \"long\" uses tldr as\nsummary.\n\nFeatures includes:\n\n- document: post text without tldr.\n- tldr: tldr line.\n- title: trimmed title without tldr.\n- ups: upvotes.\n- score: score.\n- num_comments: number of comments.\n- upvote_ratio: upvote ratio.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/reddit-tifu)\n\n- **Homepage** : \u003chttps://github.com/ctr4si/MMN\u003e\n\n- **Source code** :\n [`tfds.datasets.reddit_tifu.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/reddit_tifu/reddit_tifu_dataset_builder.py)\n\n- **Versions**:\n\n - `1.1.0`: Remove empty document and summary strings.\n - `1.1.1`: Add train, dev and test (80/10/10) splits which are used in PEGASUS (\u003chttps://arxiv.org/abs/1912.08777\u003e) in a separate config. These were created randomly using the tfds split function and are being released to ensure that results on Reddit Tifu Long are reproducible and comparable.Also add `id` to the datapoints.\n - **`1.1.2`** (default): Corrected splits uploaded.\n- **Feature structure**:\n\n FeaturesDict({\n 'documents': Text(shape=(), dtype=string),\n 'id': Text(shape=(), dtype=string),\n 'num_comments': float32,\n 'score': float32,\n 'title': Text(shape=(), dtype=string),\n 'tldr': Text(shape=(), dtype=string),\n 'ups': float32,\n 'upvote_ratio': float32,\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|--------------|--------------|-------|---------|-------------|\n| | FeaturesDict | | | |\n| documents | Text | | string | |\n| id | Text | | string | |\n| num_comments | Tensor | | float32 | |\n| score | Tensor | | float32 | |\n| title | Text | | string | |\n| tldr | Text | | string | |\n| ups | Tensor | | float32 | |\n| upvote_ratio | Tensor | | float32 | |\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Citation**:\n\n @misc{kim2018abstractive,\n title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},\n author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},\n year={2018},\n eprint={1811.00783},\n archivePrefix={arXiv},\n primaryClass={cs.CL}\n }\n\nreddit_tifu/short (default config)\n----------------------------------\n\n- **Config description**: Using title as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `141.46 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Only when `shuffle_files=False` (train)\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 79,740 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'title')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long\n----------------\n\n- **Config description**: Using TLDR as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 42,139 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long_split\n----------------------\n\n- **Config description**: Using TLDR as summary and return train/test/dev\n splits.\n\n- **Download size** : `639.94 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 4,214 |\n| `'train'` | 33,711 |\n| `'validation'` | 4,214 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples..."]]