- Descriptif :
L'ensemble de données des rapports gouvernementaux se compose de rapports rédigés par des agences de recherche gouvernementales, notamment le Congressional Research Service et le US Government Accountability Office.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://gov-report-data.github.io/
Code source :
tfds.summarization.gov_report.GovReport
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
320.59 MiB
Mise en cache automatique ( documentation ): Non
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report/crs_whitespace (configuration par défaut)
Description de la configuration : rapport CRS avec résumé. Structures aplaties et reliées par des espaces blancs. C'est le format utilisé par le papier original
Taille du jeu de données :
349.76 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 362 |
'train' | 6 514 |
'validation' | 362 |
- Structure des fonctionnalités :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Texte | chaîne de caractères | ||
date de parution | Texte | chaîne de caractères | ||
rapports | Texte | chaîne de caractères | ||
sommaire | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('reports', 'summary')
Exemples ( tfds.as_dataframe ):
gov_report/gao_whitespace
Description de la configuration : rapport GAO avec des structures en surbrillance aplaties et jointes par des espaces. C'est le format utilisé par le papier original
Taille du jeu de données :
690.24 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 611 |
'train' | 11 005 |
'validation' | 612 |
- Structure des fonctionnalités :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
fait rapide | Texte | chaîne de caractères | ||
souligner | Texte | chaîne de caractères | ||
identifiant | Texte | chaîne de caractères | ||
date de publication | Texte | chaîne de caractères | ||
date de parution | Texte | chaîne de caractères | ||
rapport | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères | ||
URL | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('report', 'highlight')
Exemples ( tfds.as_dataframe ):
gov_report/crs_html
Description de la configuration : rapport CRS avec résumé. Structures aplaties et jointes par une nouvelle ligne tout en ajoutant des balises html. Les balises ne sont ajoutées que pour section_title dans un format tel que
<h2>xxx<h2>
.Taille du jeu de données :
351.25 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 362 |
'train' | 6 514 |
'validation' | 362 |
- Structure des fonctionnalités :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Texte | chaîne de caractères | ||
date de parution | Texte | chaîne de caractères | ||
rapports | Texte | chaîne de caractères | ||
sommaire | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('reports', 'summary')
Exemples ( tfds.as_dataframe ):
gov_report/gao_html
Description de la configuration : Rapport GAO avec des structures en surbrillance aplaties et jointes par une nouvelle ligne tout en ajoutant des balises html. Les balises ne sont ajoutées que pour section_title dans un format tel que
<h2>xxx<h2>
.Taille du jeu de données :
692.72 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 611 |
'train' | 11 005 |
'validation' | 612 |
- Structure des fonctionnalités :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
fait rapide | Texte | chaîne de caractères | ||
souligner | Texte | chaîne de caractères | ||
identifiant | Texte | chaîne de caractères | ||
date de publication | Texte | chaîne de caractères | ||
date de parution | Texte | chaîne de caractères | ||
rapport | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères | ||
URL | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('report', 'highlight')
Exemples ( tfds.as_dataframe ):
gov_report/crs_json
Description de la configuration : rapport CRS avec résumé. Structures représentées sous forme de json brut.
Taille du jeu de données :
361.92 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 362 |
'train' | 6 514 |
'validation' | 362 |
- Structure des fonctionnalités :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Texte | chaîne de caractères | ||
date de parution | Texte | chaîne de caractères | ||
rapports | Texte | chaîne de caractères | ||
sommaire | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('reports', 'summary')
Exemples ( tfds.as_dataframe ):
gov_report/gao_json
Description de la configuration : rapport GAO avec les structures en surbrillance représentées sous forme de json brut.
Taille du jeu de données :
712.82 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 611 |
'train' | 11 005 |
'validation' | 612 |
- Structure des fonctionnalités :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
fait rapide | Texte | chaîne de caractères | ||
souligner | Texte | chaîne de caractères | ||
identifiant | Texte | chaîne de caractères | ||
date de publication | Texte | chaîne de caractères | ||
date de parution | Texte | chaîne de caractères | ||
rapport | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères | ||
URL | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('report', 'highlight')
Exemples ( tfds.as_dataframe ):