Références :
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:makhzan')
- Description :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- Licence : Tous les fichiers du répertoire /text sont couverts par le droit d'auteur standard. Chaque morceau de texte a été inclus dans ce référentiel avec l'autorisation explicite des détenteurs respectifs des droits d'auteur, qui sont identifiés dans le balise pour chaque fichier. Vous êtes libre d'utiliser ce texte à des fins d'analyse, de recherche et de développement, mais vous n'êtes pas autorisé à redistribuer ou republier ce texte. Certains cas dans lesquels une licence moins restrictive pourrait s'appliquer aux fichiers du répertoire /text sont présentés ci-dessous. Dans certains cas, des textes libres de droits ont été reproduits numériquement grâce au travail acharné de nos collaborateurs. Dans de tels cas, nous avons crédité les personnes appropriées lorsque cela était possible dans un champ de notes dans les métadonnées du fichier, et nous vous encourageons fortement à les contacter avant de redistribuer ce texte sous quelque forme que ce soit. Lorsqu'une licence distincte est fournie avec le texte, nous avons fourni les données correspondantes dans le champ de publication des métadonnées d'un fichier.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'train' | 5522 |
- Caractéristiques :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}