- Descriptif :
Cet ensemble de données d'entretiens médiatiques à grande échelle contient 463,6 000 transcriptions avec des résumés abstraits, collectés à partir des transcriptions d'entretiens et des descriptions générales / thématiques de NPR et CNN.
Veuillez limiter votre utilisation de cet ensemble de données à des fins de recherche uniquement.
Et s'il vous plaît, citez notre article : MediaSum : un ensemble de données d'interviews médiatiques à grande échelle pour le résumé du dialogue
Éthique
Nous avons utilisé uniquement les données de transcriptions accessibles au public provenant des sources médiatiques et adhérons à leurs directives uniquement à des fins de recherche.
Comme les médias et les invités peuvent avoir des opinions biaisées, les transcriptions et les résumés en contiendront probablement. Le contenu des transcriptions et des résumés ne reflète que les points de vue des médias et des invités et doit être consulté avec discrétion.
Page d' accueil : https://github.com/zcgzcgzcg1/MediaSum
Code source :
tfds.datasets.media_sum.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
4.11 GiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données source dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
manual_dir doit contenir les fichiers :- news_dialogue.json
- train_val_test_split.json
Les fichiers peuvent être téléchargés et extraits de la page GitHub du jeu de données : https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 10 000 |
'train' | 443 596 |
'val' | 10 000 |
- Structure des fonctionnalités :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
date | Texte | chaîne | ||
identifiant | Texte | chaîne | ||
programme | Texte | chaîne | ||
conférencier | Séquence (texte) | (Aucun,) | chaîne | |
résumé | Texte | chaîne | ||
URL | Texte | chaîne | ||
tout à fait | Séquence (texte) | (Aucun,) | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('utt', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}