c4_wsrs

  • Descriptif :

Un ensemble de données d'extension d'abréviations médicales qui applique la substitution inverse à l'échelle du Web (wsrs) à l'ensemble de données C4, qui est une version colossale et nettoyée du corpus d'exploration Web de Common Crawl.

La source originale est le jeu de données Common Crawl : https://commoncrawl.org

Diviser Exemples
'train' 9 575 852
'validation' 991 422
  • Structure des fonctionnalités :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
extrait_abrégé Texte chaîne de caractères
original_snippet Texte chaîne de caractères
  • Citation :

c4_wsrs/default (configuration par défaut)