- Açıklama :
Bu büyük ölçekli medya röportajı veri seti, NPR ve CNN'den röportaj transkriptleri ve genel bakış / konu açıklamalarından toplanan özet özetlerle birlikte 463.6K transkript içerir.
Lütfen bu veri kümesini kullanımınızı yalnızca araştırma amacıyla sınırlayın.
Ve lütfen şu makalemizden alıntı yapın: MediaSum: Diyalog Özeti için Büyük Ölçekli Bir Medya Röportajı Veri Kümesi
etik
Medya kaynaklarından yalnızca halka açık transkript verilerini kullandık ve yalnızca araştırma amaçlı kılavuzlarına bağlı kaldık.
Medya ve konuklar önyargılı görüşlere sahip olabileceğinden, transkriptler ve özetler muhtemelen bunları içerecektir. Transkriptlerin ve özetlerin içeriği yalnızca medyanın ve konukların görüşlerini yansıtır ve ihtiyatla incelenmelidir.
Anasayfa : https://github.com/zcgzcgzcg1/MediaSum
Kaynak kodu :
tfds.datasets.media_sum.Buildersürümler :
-
1.0.0(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown sizeVeri kümesi boyutu :
4.11 GiBManuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dirgerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/):
manual_dir şu dosyaları içermelidir:- news_dialogue.json
- train_val_test_split.json
Dosyalar, veri kümesinin GitHub sayfasından indirilebilir ve çıkarılabilir: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
| Bölmek | örnekler |
|---|---|
'test' | 10.000 |
'train' | 443.596 |
'val' | 10.000 |
- Özellik yapısı :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Özellik belgeleri :
| Özellik | Sınıf | Şekil | Dtipi | Tanım |
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| tarih | Metin | sicim | ||
| İD | Metin | sicim | ||
| programı | Metin | sicim | ||
| konuşmacı | Sıra(Metin) | (Hiçbiri,) | sicim | |
| özet | Metin | sicim | ||
| url | Metin | sicim | ||
| utt | Sıra(Metin) | (Hiçbiri,) | sicim |
Denetlenen anahtarlar (Bkz
as_superviseddoc ):('utt', 'summary')Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}