medya_sum

  • Açıklama :

Bu büyük ölçekli medya röportajı veri seti, NPR ve CNN'den röportaj transkriptleri ve genel bakış / konu açıklamalarından toplanan özet özetlerle birlikte 463.6K transkript içerir.

Lütfen bu veri kümesini kullanımınızı yalnızca araştırma amacıyla sınırlayın.

Ve lütfen şu makalemizden alıntı yapın: MediaSum: Diyalog Özeti için Büyük Ölçekli Bir Medya Röportajı Veri Kümesi

etik

Medya kaynaklarından yalnızca halka açık transkript verilerini kullandık ve yalnızca araştırma amaçlı kılavuzlarına bağlı kaldık.

Medya ve konuklar önyargılı görüşlere sahip olabileceğinden, transkriptler ve özetler muhtemelen bunları içerecektir. Transkriptlerin ve özetlerin içeriği yalnızca medyanın ve konukların görüşlerini yansıtır ve ihtiyatla incelenmelidir.

  • Anasayfa : https://github.com/zcgzcgzcg1/MediaSum

  • Kaynak kodu : tfds.datasets.media_sum.Builder

  • sürümler :

    • 1.0.0 (varsayılan): İlk sürüm.
  • İndirme boyutu : Unknown size

  • Veri kümesi boyutu : 4.11 GiB

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir şu dosyaları içermelidir:

    • news_dialogue.json
    • train_val_test_split.json

Dosyalar, veri kümesinin GitHub sayfasından indirilebilir ve çıkarılabilir: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'test' 10.000
'train' 443.596
'val' 10.000
  • Özellik yapısı :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
tarih Metin sicim
İD Metin sicim
programı Metin sicim
konuşmacı Sıra(Metin) (Hiçbiri,) sicim
özet Metin sicim
url Metin sicim
utt Sıra(Metin) (Hiçbiri,) sicim
  • Alıntı :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}