medya_sum

Açıklama :

Bu büyük ölçekli medya röportajı veri seti, NPR ve CNN'den röportaj transkriptleri ve genel bakış / konu açıklamalarından toplanan özet özetlerle birlikte 463.6K transkript içerir.

Lütfen bu veri kümesini kullanımınızı yalnızca araştırma amacıyla sınırlayın.

Ve lütfen şu makalemizden alıntı yapın: MediaSum: Diyalog Özeti için Büyük Ölçekli Bir Medya Röportajı Veri Kümesi

etik

Medya kaynaklarından yalnızca halka açık transkript verilerini kullandık ve yalnızca araştırma amaçlı kılavuzlarına bağlı kaldık.

Medya ve konuklar önyargılı görüşlere sahip olabileceğinden, transkriptler ve özetler muhtemelen bunları içerecektir. Transkriptlerin ve özetlerin içeriği yalnızca medyanın ve konukların görüşlerini yansıtır ve ihtiyatla incelenmelidir.

Anasayfa : https://github.com/zcgzcgzcg1/MediaSum
Kaynak kodu : tfds.datasets.media_sum.Builder
sürümler :
- 1.0.0 (varsayılan): İlk sürüm.
İndirme boyutu : Unknown size
Veri kümesi boyutu : 4.11 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
manual_dir şu dosyaları içermelidir:
- news_dialogue.json
- train_val_test_split.json

Dosyalar, veri kümesinin GitHub sayfasından indirilebilir ve çıkarılabilir: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :

Bölmek	örnekler
`'test'`	10.000
`'train'`	443.596
`'val'`	10.000

Özellik yapısı :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
tarih	Metin		sicim
İD	Metin		sicim
programı	Metin		sicim
konuşmacı	Sıra(Metin)	(Hiçbiri,)	sicim
özet	Metin		sicim
url	Metin		sicim
utt	Sıra(Metin)	(Hiçbiri,)	sicim

Denetlenen anahtarlar (Bkz as_supervised doc ): ('utt', 'summary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):

Alıntı :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

medya_sum Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

etik

medya_sum