reddit_tifu
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Bộ dữ liệu Reddit, trong đó TIFU biểu thị tên của subbreddit /r/tifu. Như được định nghĩa trong ấn phẩm, kiểu "ngắn" sử dụng tiêu đề làm tóm tắt và "dài" sử dụng tldr làm tóm tắt.
Các tính năng bao gồm:
- tài liệu: đăng văn bản mà không cần tldr.
- tldr: dòng tldr.
- tiêu đề: tiêu đề được cắt bớt mà không có tldr.
- up: phiếu ủng hộ.
- điểm: điểm.
- num_comments: số bình luận.
upvote_ratio: tỷ lệ ủng hộ.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã north_east
Trang chủ : https://github.com/ctr4si/MMN
Mã nguồn : tfds.datasets.reddit_tifu.Builder
Phiên bản :
-
1.1.0
: Xóa tài liệu trống và chuỗi tóm tắt. -
1.1.1
: Thêm phần tách đào tạo, phát triển và thử nghiệm (80/10/10) được sử dụng trong PEGASUS ( https://arxiv.org/abs/1912.08777 ) trong một cấu hình riêng. Chúng được tạo ngẫu nhiên bằng cách sử dụng chức năng phân tách tfds và đang được phát hành để đảm bảo rằng kết quả trên Reddit Tifu Long có thể tái tạo và so sánh được. Ngoài ra, hãy thêm id
vào các điểm dữ liệu. -
1.1.2
(mặc định): Đã tải lên các phần tách đã chỉnh sửa.
Cấu trúc tính năng :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|
| Tính năngDict | | | |
các tài liệu | Chữ | | chuỗi | |
Tôi | Chữ | | chuỗi | |
num_comments | tenxơ | | phao32 | |
ghi bàn | tenxơ | | phao32 | |
Tiêu đề | Chữ | | chuỗi | |
tldr | Chữ | | chuỗi | |
up | tenxơ | | phao32 | |
upvote_ratio | tenxơ | | phao32 | |
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/ngắn (cấu hình mặc định)
Mô tả cấu hình : Sử dụng tiêu đề làm tóm tắt.
Kích thước tải xuống : 639.54 MiB
Kích thước tập dữ liệu : 141.46 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False
(đào tạo)
Chia tách :
Tách ra | ví dụ |
---|
'train' | 79,740 |
reddit_tifu/dài
Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt.
Kích thước tải xuống : 639.54 MiB
Kích thước tập dữ liệu : 93.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|
'train' | 42,139 |
reddit_tifu/long_split
Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt và trả lại các phần tách đào tạo/kiểm tra/nhà phát triển.
Kích thước tải xuống : 639.94 MiB
Kích thước tập dữ liệu : 93.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2022-12-23 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2022-12-23 UTC."],[],[],null,["# reddit_tifu\n\n\u003cbr /\u003e\n\n- **Description**:\n\nReddit dataset, where TIFU denotes the name of subbreddit /r/tifu. As defined in\nthe publication, style \"short\" uses title as summary and \"long\" uses tldr as\nsummary.\n\nFeatures includes:\n\n- document: post text without tldr.\n- tldr: tldr line.\n- title: trimmed title without tldr.\n- ups: upvotes.\n- score: score.\n- num_comments: number of comments.\n- upvote_ratio: upvote ratio.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/reddit-tifu)\n\n- **Homepage** : \u003chttps://github.com/ctr4si/MMN\u003e\n\n- **Source code** :\n [`tfds.datasets.reddit_tifu.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/reddit_tifu/reddit_tifu_dataset_builder.py)\n\n- **Versions**:\n\n - `1.1.0`: Remove empty document and summary strings.\n - `1.1.1`: Add train, dev and test (80/10/10) splits which are used in PEGASUS (\u003chttps://arxiv.org/abs/1912.08777\u003e) in a separate config. These were created randomly using the tfds split function and are being released to ensure that results on Reddit Tifu Long are reproducible and comparable.Also add `id` to the datapoints.\n - **`1.1.2`** (default): Corrected splits uploaded.\n- **Feature structure**:\n\n FeaturesDict({\n 'documents': Text(shape=(), dtype=string),\n 'id': Text(shape=(), dtype=string),\n 'num_comments': float32,\n 'score': float32,\n 'title': Text(shape=(), dtype=string),\n 'tldr': Text(shape=(), dtype=string),\n 'ups': float32,\n 'upvote_ratio': float32,\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|--------------|--------------|-------|---------|-------------|\n| | FeaturesDict | | | |\n| documents | Text | | string | |\n| id | Text | | string | |\n| num_comments | Tensor | | float32 | |\n| score | Tensor | | float32 | |\n| title | Text | | string | |\n| tldr | Text | | string | |\n| ups | Tensor | | float32 | |\n| upvote_ratio | Tensor | | float32 | |\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Citation**:\n\n @misc{kim2018abstractive,\n title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},\n author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},\n year={2018},\n eprint={1811.00783},\n archivePrefix={arXiv},\n primaryClass={cs.CL}\n }\n\nreddit_tifu/short (default config)\n----------------------------------\n\n- **Config description**: Using title as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `141.46 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Only when `shuffle_files=False` (train)\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 79,740 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'title')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long\n----------------\n\n- **Config description**: Using TLDR as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 42,139 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long_split\n----------------------\n\n- **Config description**: Using TLDR as summary and return train/test/dev\n splits.\n\n- **Download size** : `639.94 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 4,214 |\n| `'train'` | 33,711 |\n| `'validation'` | 4,214 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples..."]]