zasób

 • opis :

ASSET to zestaw danych do oceny systemów uproszczenia zdań z wieloma przekształceniami przepisywania, zgodnie z opisem w „ASSET: zestaw danych do dostrajania i oceny modeli uproszczenia zdań z wielokrotnymi przekształceniami przepisywania”. Korpus składa się z 2000 walidacji i 359 oryginalnych zdań testowych, z których każde zostało uproszczone 10 razy przez różnych adnotatorów. Korpus zawiera również ludzkie oceny zachowania znaczenia, płynności i prostoty wyników kilku automatycznych systemów upraszczania tekstu.

@inproceedings{alva-manchego-etal-2020-asset,
  title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
  author = "Alva-Manchego, Fernando and
   Martin, Louis and
   Bordes, Antoine and
   Scarton, Carolina and
   Sagot, Benoit and
   Specia, Lucia",
  booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
  month = jul,
  year = "2020",
  address = "Online",
  publisher = "Association for Computational Linguistics",
  url = "https://www.aclweb.org/anthology/2020.acl-main.424",
  pages = "4668--4679",
}

zasób/uproszczenie (domyślna konfiguracja)

 • Opis konfiguracji: zestaw oryginalnych zdań z 10 możliwymi uproszczeniami dla każdego.

 • Rozmiar zestawu danych : 2.64 MiB

 • Podziały :

Rozdzielać Przykłady
'test' 359
'validation' 2000
 • Struktura funkcji :
FeaturesDict({
  'original': Text(shape=(), dtype=string),
  'simplifications': Sequence(Text(shape=(), dtype=string)),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
oryginał Tekst strunowy
uproszczenia Sekwencja (tekst) (Nic,) strunowy

aktywa/oceny

 • Opis konfiguracji : Ludzkie oceny automatycznie generowanego uproszczenia tekstu.

 • Rozmiar zestawu danych : 1.44 MiB

 • Podziały :

Rozdzielać Przykłady
'full' 4500
 • Struktura funkcji :
FeaturesDict({
  'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
  'original': Text(shape=(), dtype=string),
  'original_sentence_id': int32,
  'rating': int32,
  'simplification': Text(shape=(), dtype=string),
  'worker_id': int32,
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
aspekt Etykieta klasy int64
oryginał Tekst strunowy
oryginalne_zdanie_id Napinacz int32
ocena Napinacz int32
uproszczenie Tekst strunowy
identyfikator_pracownika Napinacz int32