redakcja

  • opis :

NEWSROOM to duży zbiór danych do szkolenia i oceny systemów podsumowujących. Zawiera 1,3 miliona artykułów i streszczeń napisanych przez autorów i redaktorów w redakcjach 38 głównych publikacji.

Funkcje zestawu danych obejmują:

  • tekst: Wprowadź tekst wiadomości.
  • podsumowanie: Podsumowanie wiadomości.

Oraz dodatkowe funkcje:

  • tytuł: tytuł wiadomości.
  • url: adres URL wiadomości.
  • data: data artykułu.
  • gęstość: gęstość ekstrakcyjna.
  • zasięg: zasięg ekstrakcyjny.
  • kompresja: współczynnik kompresji.
  • gęstość_bin: niska, średnia, wysoka.
  • pokrycie_bin: ekstrakcyjne, abstrakcyjne.
  • kompresja_bin: niska, średnia, wysoka.

Ten zestaw danych można pobrać na żądanie. Rozpakuj całą zawartość „train.jsonl, dev.jsonl, test.jsonl” do folderu tfds.

  • Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na

  • Strona główna : https://summari.es

  • Kod źródłowy : tfds.datasets.newsroom.Builder

  • Wersje :

    • 1.0.0 (domyślnie): Brak informacji o wersji.
  • Rozmiar pliku do pobrania : Unknown size

  • Rozmiar zestawu danych : 5.13 GiB

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    Zestaw danych należy pobrać ze strony https://summari.es/download/ Strona wymaga rejestracji. Po pobraniu umieść pliki dev.jsonl, test.jsonl i train.jsonl w katalogu manual_dir.

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 108862
'train' 995,041
'validation' 108837
  • Struktura funkcji :
FeaturesDict({
   
'compression': float32,
   
'compression_bin': Text(shape=(), dtype=string),
   
'coverage': float32,
   
'coverage_bin': Text(shape=(), dtype=string),
   
'date': Text(shape=(), dtype=string),
   
'density': float32,
   
'density_bin': Text(shape=(), dtype=string),
   
'summary': Text(shape=(), dtype=string),
   
'text': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
   
'url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
kompresja Napinacz pływak32
kompresja_bin Tekst strunowy
zasięg Napinacz pływak32
zasięg_bin Tekst strunowy
data Tekst strunowy
gęstość Napinacz pływak32
gęstość_bin Tekst strunowy
streszczenie Tekst strunowy
tekst Tekst strunowy
tytuł Tekst strunowy
adres URL Tekst strunowy
  • Cytat :
@article{Grusky_2018,
   title
={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url
={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI
={10.18653/v1/n18-1065},
   journal
={Proceedings of the 2018 Conference of the North American Chapter of
          the
Association for Computational Linguistics: Human Language
         
Technologies, Volume 1 (Long Papers)},
   publisher
={Association for Computational Linguistics},
   author
={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year
={2018}
}