gov_report

  • คำอธิบาย :

ชุดข้อมูลรายงานของรัฐบาลประกอบด้วยรายงานที่เขียนขึ้นโดยหน่วยงานวิจัยของรัฐบาล รวมถึง Congressional Research Service และ US Government Accountability Office

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace (ค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า: รายงาน CRS พร้อมข้อมูลสรุป โครงสร้างแบนราบและเชื่อมต่อกันด้วยช่องว่าง นี่คือรูปแบบที่ใช้กับกระดาษต้นฉบับ

  • ขนาดชุดข้อมูล : 349.76 MiB

  • แยก :

แยก ตัวอย่าง
'test' 362
'train' 6,514
'validation' 362
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัส ข้อความ สตริง
release_date ข้อความ สตริง
รายงาน ข้อความ สตริง
สรุป ข้อความ สตริง
ชื่อ ข้อความ สตริง

gov_report/gao_whitespace

  • คำอธิบาย การกำหนดค่า: รายงาน GAO พร้อมไฮไลท์ โครงสร้างถูกแบนและรวมด้วยช่องว่าง นี่คือรูปแบบที่ใช้กับกระดาษต้นฉบับ

  • ขนาดชุดข้อมูล : 690.24 MiB

  • แยก :

แยก ตัวอย่าง
'test' 611
'train' 11,005
'validation' 612
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รวดเร็ว ข้อความ สตริง
เน้น ข้อความ สตริง
รหัส ข้อความ สตริง
เผยแพร่_วันที่ ข้อความ สตริง
release_date ข้อความ สตริง
รายงาน ข้อความ สตริง
ชื่อ ข้อความ สตริง
URL ข้อความ สตริง

gov_report/crs_html

  • คำอธิบาย การกำหนดค่า: รายงาน CRS พร้อมข้อมูลสรุป โครงสร้างถูกแบนและรวมเข้าด้วยกันด้วยการขึ้นบรรทัดใหม่ในขณะที่เพิ่มแท็ก html แท็กจะถูกเพิ่มสำหรับ secition_title ในรูปแบบเช่น <h2>xxx<h2> เท่านั้น

  • ขนาดชุดข้อมูล : 351.25 MiB

  • แยก :

แยก ตัวอย่าง
'test' 362
'train' 6,514
'validation' 362
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัส ข้อความ สตริง
release_date ข้อความ สตริง
รายงาน ข้อความ สตริง
สรุป ข้อความ สตริง
ชื่อ ข้อความ สตริง

gov_report/gao_html

  • คำอธิบาย การกำหนดค่า: รายงาน GAO พร้อมไฮไลท์ โครงสร้างถูกแบนและรวมด้วยการขึ้นบรรทัดใหม่ในขณะที่เพิ่มแท็ก html แท็กจะถูกเพิ่มสำหรับ secition_title ในรูปแบบเช่น <h2>xxx<h2> เท่านั้น

  • ขนาดชุดข้อมูล : 692.72 MiB

  • แยก :

แยก ตัวอย่าง
'test' 611
'train' 11,005
'validation' 612
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รวดเร็ว ข้อความ สตริง
เน้น ข้อความ สตริง
รหัส ข้อความ สตริง
เผยแพร่_วันที่ ข้อความ สตริง
release_date ข้อความ สตริง
รายงาน ข้อความ สตริง
ชื่อ ข้อความ สตริง
URL ข้อความ สตริง

gov_report/crs_json

  • คำอธิบาย การกำหนดค่า: รายงาน CRS พร้อมข้อมูลสรุป โครงสร้างที่แสดงเป็น json ดิบ

  • ขนาดชุดข้อมูล : 361.92 MiB

  • แยก :

แยก ตัวอย่าง
'test' 362
'train' 6,514
'validation' 362
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัส ข้อความ สตริง
release_date ข้อความ สตริง
รายงาน ข้อความ สตริง
สรุป ข้อความ สตริง
ชื่อ ข้อความ สตริง

gov_report/gao_json

  • คำอธิบาย การกำหนดค่า: รายงาน GAO พร้อมไฮไลต์โครงสร้างที่แสดงเป็น raw json

  • ขนาดชุดข้อมูล : 712.82 MiB

  • แยก :

แยก ตัวอย่าง
'test' 611
'train' 11,005
'validation' 612
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รวดเร็ว ข้อความ สตริง
เน้น ข้อความ สตริง
รหัส ข้อความ สตริง
เผยแพร่_วันที่ ข้อความ สตริง
release_date ข้อความ สตริง
รายงาน ข้อความ สตริง
ชื่อ ข้อความ สตริง
URL ข้อความ สตริง