salient_span_wikipedia

  • opis :

Zdania w Wikipedii z oznaczonymi najistotniejszymi rozpiętościami.

@article{guu2020realm,
    title
={REALM: Retrieval-Augmented Language Model Pre-Training},
    author
={Kelvin Guu and Kenton Lee and Zora Tung and Panupong Pasupat and Ming-Wei Chang},
    year
={2020},
    journal
= {arXiv e-prints},
    archivePrefix
= {arXiv},
    eprint
={2002.08909},
}

salient_span_wikipedia/sentences (domyślna konfiguracja)

  • Opis konfiguracji : Przykładami są pojedyncze zdania zawierające byty.

  • Rozmiar zestawu danych : 20.57 GiB

  • Podziały :

Podział Przykłady
'train' 82 291 706
  • Struktura funkcji :
FeaturesDict({
   
'spans': Sequence({
       
'limit': int32,
       
'start': int32,
       
'type': string,
   
}),
   
'text': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
rozpiętości Sekwencja
rozpiętości/granica Napinacz int32
przęsła/start Napinacz int32
rozpiętości/typ Napinacz strunowy
tekst Tekst strunowy
tytuł Tekst strunowy

salient_span_wikipedia/documents

  • Opis konfiguracji : Przykłady dotyczą pełnych dokumentów.

  • Rozmiar zestawu danych : 16.52 GiB

  • Podziały :

Podział Przykłady
'train' 13 353 718
  • Struktura funkcji :
FeaturesDict({
   
'sentences': Sequence({
       
'limit': int32,
       
'start': int32,
   
}),
   
'spans': Sequence({
       
'limit': int32,
       
'start': int32,
       
'type': string,
   
}),
   
'text': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
zdania Sekwencja
zdania/limit Napinacz int32
zdania/początek Napinacz int32
rozpiętości Sekwencja
rozpiętości/granica Napinacz int32
przęsła/start Napinacz int32
rozpiętości/typ Napinacz strunowy
tekst Tekst strunowy
tytuł Tekst strunowy