gov_report

  • الوصف :

تتكون مجموعة بيانات التقارير الحكومية من تقارير مكتوبة من قبل وكالات الأبحاث الحكومية بما في ذلك خدمة أبحاث الكونغرس ومكتب محاسبة الحكومة الأمريكية.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report / crs_whitespace (التكوين الافتراضي)

  • وصف التكوين : تقرير CRS مع ملخص. تم تسطيح الهياكل وربطها بمسافة بيضاء. هذا هو التنسيق المستخدم في الورق الأصلي

  • حجم مجموعة البيانات : 349.76 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 362
'train' 6514
'validation' 362
  • هيكل الميزة :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
هوية شخصية نص سلسلة
تاريخ الإفراج نص سلسلة
التقارير نص سلسلة
ملخص نص سلسلة
لقب نص سلسلة

gov_report / gao_whitespace

  • وصف التكوين : تقرير GAO مع تمييز الهياكل بالارض وربطها بمسافة بيضاء. هذا هو التنسيق المستخدم في الورق الأصلي

  • حجم مجموعة البيانات : 690.24 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 611
'train' 11،005
'validation' 612
  • هيكل الميزة :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
حقيقة سريع نص سلسلة
تسليط الضوء نص سلسلة
هوية شخصية نص سلسلة
تاريخ النشر نص سلسلة
تاريخ الإفراج نص سلسلة
أبلغ عن نص سلسلة
لقب نص سلسلة
عنوان url نص سلسلة

gov_report / crs_html

  • وصف التكوين : تقرير CRS مع ملخص. تم تسوية الهياكل وضمها بواسطة سطر جديد أثناء إضافة علامات html. تتم إضافة العلامات فقط لـ secition_title بتنسيق مثل <h2>xxx<h2> .

  • حجم مجموعة البيانات : 351.25 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 362
'train' 6514
'validation' 362
  • هيكل الميزة :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
هوية شخصية نص سلسلة
تاريخ الإفراج نص سلسلة
التقارير نص سلسلة
ملخص نص سلسلة
لقب نص سلسلة

gov_report / gao_html

  • وصف التكوين : تقرير GAO مع تمييز الهياكل تم تسويتها وضمها بواسطة سطر جديد أثناء إضافة علامات html. تتم إضافة العلامات فقط لـ secition_title بتنسيق مثل <h2>xxx<h2> .

  • حجم مجموعة البيانات : 692.72 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 611
'train' 11،005
'validation' 612
  • هيكل الميزة :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
حقيقة سريع نص سلسلة
تسليط الضوء نص سلسلة
هوية شخصية نص سلسلة
تاريخ النشر نص سلسلة
تاريخ الإفراج نص سلسلة
أبلغ عن نص سلسلة
لقب نص سلسلة
عنوان url نص سلسلة

gov_report / crs_json

  • وصف التكوين : تقرير CRS مع ملخص. الهياكل الممثلة في شكل json الخام.

  • حجم مجموعة البيانات : 361.92 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 362
'train' 6514
'validation' 362
  • هيكل الميزة :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
هوية شخصية نص سلسلة
تاريخ الإفراج نص سلسلة
التقارير نص سلسلة
ملخص نص سلسلة
لقب نص سلسلة

gov_report / gao_json

  • وصف التهيئة : تقرير GAO مع تمييز الهياكل الممثلة كـ json raw.

  • حجم مجموعة البيانات : 712.82 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 611
'train' 11،005
'validation' 612
  • هيكل الميزة :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
حقيقة سريع نص سلسلة
تسليط الضوء نص سلسلة
هوية شخصية نص سلسلة
تاريخ النشر نص سلسلة
تاريخ الإفراج نص سلسلة
أبلغ عن نص سلسلة
لقب نص سلسلة
عنوان url نص سلسلة