- Mô tả :
Bộ dữ liệu báo cáo của chính phủ bao gồm các báo cáo được viết bởi các cơ quan nghiên cứu của chính phủ bao gồm Dịch vụ Nghiên cứu của Quốc hội và Văn phòng Trách nhiệm của Chính phủ Hoa Kỳ.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://gov-report-data.github.io/
Mã nguồn :
tfds.summarization.gov_report.GovReport
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
320.59 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report/crs_whitespace (cấu hình mặc định)
Mô tả cấu hình : Báo cáo CRS với bản tóm tắt. Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc
Kích thước tập dữ liệu :
349.76 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Cấu trúc tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | Chữ | sợi dây | ||
ngày phát hành | Chữ | sợi dây | ||
báo cáo | Chữ | sợi dây | ||
bản tóm tắt | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('reports', 'summary')
Ví dụ ( tfds.as_dataframe ):
gov_report/gao_whitespace
Mô tả cấu hình : Báo cáo GAO với phần nổi bật Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc
Kích thước tập dữ liệu :
690.24 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 611 |
'train' | 11.005 |
'validation' | 612 |
- Cấu trúc tính năng :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Thực tế nhanh | Chữ | sợi dây | ||
Điểm nổi bật | Chữ | sợi dây | ||
Tôi | Chữ | sợi dây | ||
Ngày xuất bản | Chữ | sợi dây | ||
ngày phát hành | Chữ | sợi dây | ||
báo cáo | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây | ||
url | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('report', 'highlight')
Ví dụ ( tfds.as_dataframe ):
gov_report/crs_html
Mô tả cấu hình : Báo cáo CRS với bản tóm tắt. Các cấu trúc được làm phẳng và nối bằng dòng mới trong khi thêm các thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như
<h2>xxx<h2>
.Kích thước tập dữ liệu :
351.25 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Cấu trúc tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | Chữ | sợi dây | ||
ngày phát hành | Chữ | sợi dây | ||
báo cáo | Chữ | sợi dây | ||
bản tóm tắt | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('reports', 'summary')
Ví dụ ( tfds.as_dataframe ):
gov_report/gao_html
Mô tả cấu hình : Báo cáo GAO với cấu trúc nổi bật được làm phẳng và nối bằng dòng mới trong khi thêm thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như
<h2>xxx<h2>
.Kích thước tập dữ liệu :
692.72 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 611 |
'train' | 11.005 |
'validation' | 612 |
- Cấu trúc tính năng :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Thực tế nhanh | Chữ | sợi dây | ||
Điểm nổi bật | Chữ | sợi dây | ||
Tôi | Chữ | sợi dây | ||
Ngày xuất bản | Chữ | sợi dây | ||
ngày phát hành | Chữ | sợi dây | ||
báo cáo | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây | ||
url | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('report', 'highlight')
Ví dụ ( tfds.as_dataframe ):
gov_report/crs_json
Mô tả cấu hình : Báo cáo CRS với bản tóm tắt. Các cấu trúc được biểu diễn dưới dạng json thô.
Kích thước tập dữ liệu :
361.92 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- Cấu trúc tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | Chữ | sợi dây | ||
ngày phát hành | Chữ | sợi dây | ||
báo cáo | Chữ | sợi dây | ||
bản tóm tắt | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('reports', 'summary')
Ví dụ ( tfds.as_dataframe ):
gov_report/gao_json
Mô tả cấu hình : Báo cáo GAO với cấu trúc nổi bật được biểu thị dưới dạng json thô.
Kích thước tập dữ liệu :
712.82 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 611 |
'train' | 11.005 |
'validation' | 612 |
- Cấu trúc tính năng :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Thực tế nhanh | Chữ | sợi dây | ||
Điểm nổi bật | Chữ | sợi dây | ||
Tôi | Chữ | sợi dây | ||
Ngày xuất bản | Chữ | sợi dây | ||
ngày phát hành | Chữ | sợi dây | ||
báo cáo | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây | ||
url | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('report', 'highlight')
Ví dụ ( tfds.as_dataframe ):