gov_report

  • Mô tả :

Bộ dữ liệu báo cáo của chính phủ bao gồm các báo cáo được viết bởi các cơ quan nghiên cứu của chính phủ bao gồm Dịch vụ Nghiên cứu của Quốc hội và Văn phòng Giải trình của Chính phủ Hoa Kỳ.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report / crs_whitespace (cấu hình mặc định)

  • Mô tả cấu hình : Báo cáo CRS với tóm tắt. Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc

  • Kích thước tập dữ liệu: 349.76 MiB

  • Tách :

Tách ra Các ví dụ
'test' 362
'train' 6,514
'validation' 362
  • Các tính năng :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report / gao_whitespace

  • Mô tả cấu hình : Báo cáo GAO với điểm nhấn Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc

  • Kích thước tập dữ liệu: 690.24 MiB

  • Tách :

Tách ra Các ví dụ
'test' 611
'train' 11,005
'validation' 612
  • Các tính năng :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})

gov_report / crs_html

  • Mô tả cấu hình : Báo cáo CRS với tóm tắt. Các cấu trúc được làm phẳng và nối bằng dòng mới trong khi thêm các thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như <h2>xxx<h2> .

  • Kích thước tập dữ liệu: 351.25 MiB

  • Tách :

Tách ra Các ví dụ
'test' 362
'train' 6,514
'validation' 362
  • Các tính năng :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report / gao_html

  • Mô tả cấu hình : Báo cáo GAO với điểm nhấn Cấu trúc được làm phẳng và nối bằng dòng mới trong khi thêm thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như <h2>xxx<h2> .

  • Kích thước tập dữ liệu: 692.72 MiB

  • Tách :

Tách ra Các ví dụ
'test' 611
'train' 11,005
'validation' 612
  • Các tính năng :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})

gov_report / crs_json

  • Mô tả cấu hình : Báo cáo CRS với tóm tắt. Các cấu trúc được biểu diễn dưới dạng json thô.

  • Kích thước tập dữ liệu: 361.92 MiB

  • Tách :

Tách ra Các ví dụ
'test' 362
'train' 6,514
'validation' 362
  • Các tính năng :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report / gao_json

  • Mô tả cấu hình : Báo cáo GAO với điểm nhấn Các cấu trúc được biểu diễn dưới dạng json thô.

  • Kích thước tập dữ liệu: 712.82 MiB

  • Tách :

Tách ra Các ví dụ
'test' 611
'train' 11,005
'validation' 612
  • Các tính năng :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})