zasób

opis :

ASSET to zestaw danych do oceny systemów uproszczenia zdań z wieloma przekształceniami przepisywania, zgodnie z opisem w „ASSET: zestaw danych do dostrajania i oceny modeli uproszczenia zdań z wielokrotnymi przekształceniami przepisywania”. Korpus składa się z 2000 walidacji i 359 oryginalnych zdań testowych, z których każde zostało uproszczone 10 razy przez różnych adnotatorów. Korpus zawiera również ludzkie oceny zachowania znaczenia, płynności i prostoty wyników kilku automatycznych systemów upraszczania tekstu.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/facebookresearch/asset
Kod źródłowy : tfds.datasets.asset.Builder
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Rozmiar pliku do pobrania : 3.47 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

zasób/uproszczenie (domyślna konfiguracja)

Opis konfiguracji: zestaw oryginalnych zdań z 10 możliwymi uproszczeniami dla każdego.
Rozmiar zestawu danych : 2.64 MiB
Podziały :

Rozdzielać	Przykłady
`'test'`	359
`'validation'`	2000

Struktura funkcji :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
oryginał	Tekst		strunowy
uproszczenia	Sekwencja (tekst)	(Nic,)	strunowy

Przykłady ( tfds.as_dataframe ):

aktywa/oceny

Opis konfiguracji : Ludzkie oceny automatycznie generowanego uproszczenia tekstu.
Rozmiar zestawu danych : 1.44 MiB
Podziały :

Rozdzielać	Przykłady
`'full'`	4500

Struktura funkcji :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
aspekt	Etykieta klasy	int64
oryginał	Tekst	strunowy
oryginalne_zdanie_id	Napinacz	int32
ocena	Napinacz	int32
uproszczenie	Tekst	strunowy
identyfikator_pracownika	Napinacz	int32

Przykłady ( tfds.as_dataframe ):

zasób Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

zasób/uproszczenie (domyślna konfiguracja)

aktywa/oceny

zasób