- Mô tả :
Bộ dữ liệu báo cáo của chính phủ bao gồm các báo cáo được viết bởi các cơ quan nghiên cứu của chính phủ bao gồm Dịch vụ Nghiên cứu của Quốc hội và Văn phòng Giải trình của Chính phủ Hoa Kỳ.
Trang chủ : https://gov-report-data.github.io/
Mã nguồn :
tfds.summarization.gov_report.GovReport
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
320.59 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report / crs_whitespace (cấu hình mặc định)
Mô tả cấu hình : Báo cáo CRS với tóm tắt. Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc
Kích thước tập dữ liệu:
349.76 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Các tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=tf.string),
'released_date': Text(shape=(), dtype=tf.string),
'reports': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
Khóa được giám sát (Xem
as_supervised
doc ):('reports', 'summary')
Ví dụ ( tfds.as_dataframe ):
gov_report / gao_whitespace
Mô tả cấu hình : Báo cáo GAO với điểm nhấn Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc
Kích thước tập dữ liệu:
690.24 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- Các tính năng :
FeaturesDict({
'fastfact': Text(shape=(), dtype=tf.string),
'highlight': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'published_date': Text(shape=(), dtype=tf.string),
'released_date': Text(shape=(), dtype=tf.string),
'report': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
Các khóa được giám sát (Xem
as_supervised
doc ):('report', 'highlight')
Ví dụ ( tfds.as_dataframe ):
gov_report / crs_html
Mô tả cấu hình : Báo cáo CRS với tóm tắt. Các cấu trúc được làm phẳng và nối bằng dòng mới trong khi thêm các thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như
<h2>xxx<h2>
.Kích thước tập dữ liệu:
351.25 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Các tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=tf.string),
'released_date': Text(shape=(), dtype=tf.string),
'reports': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
Khóa được giám sát (Xem
as_supervised
doc ):('reports', 'summary')
Ví dụ ( tfds.as_dataframe ):
gov_report / gao_html
Mô tả cấu hình : Báo cáo GAO với điểm nhấn Cấu trúc được làm phẳng và nối bằng dòng mới trong khi thêm thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như
<h2>xxx<h2>
.Kích thước tập dữ liệu:
692.72 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- Các tính năng :
FeaturesDict({
'fastfact': Text(shape=(), dtype=tf.string),
'highlight': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'published_date': Text(shape=(), dtype=tf.string),
'released_date': Text(shape=(), dtype=tf.string),
'report': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
Các khóa được giám sát (Xem
as_supervised
doc ):('report', 'highlight')
Ví dụ ( tfds.as_dataframe ):
gov_report / crs_json
Mô tả cấu hình : Báo cáo CRS với tóm tắt. Các cấu trúc được biểu diễn dưới dạng json thô.
Kích thước tập dữ liệu:
361.92 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Các tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=tf.string),
'released_date': Text(shape=(), dtype=tf.string),
'reports': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
Khóa được giám sát (Xem
as_supervised
doc ):('reports', 'summary')
Ví dụ ( tfds.as_dataframe ):
gov_report / gao_json
Mô tả cấu hình : Báo cáo GAO với điểm nhấn Các cấu trúc được biểu diễn dưới dạng json thô.
Kích thước tập dữ liệu:
712.82 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- Các tính năng :
FeaturesDict({
'fastfact': Text(shape=(), dtype=tf.string),
'highlight': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'published_date': Text(shape=(), dtype=tf.string),
'released_date': Text(shape=(), dtype=tf.string),
'report': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
Các khóa được giám sát (Xem
as_supervised
doc ):('report', 'highlight')
Ví dụ ( tfds.as_dataframe ):