wiki_auto

  • opis :

WikiAuto zapewnia zestaw dopasowanych zdań z angielskiej Wikipedii i prostej angielskiej Wikipedii jako źródło do szkolenia systemów upraszczania zdań. Autorzy najpierw pozyskali zestaw ręcznych dopasowań między zdaniami w podzbiorze prostej angielskiej Wikipedii i ich odpowiednimi wersjami w angielskiej Wikipedii (odpowiada to manual konfiguracji), a następnie wyszkolili neuronowy system CRF, aby przewidywał te wyrównania. Wyszkolony model został następnie zastosowany do innych artykułów w prostej angielskiej Wikipedii z angielskim odpowiednikiem, aby utworzyć większy korpus wyrównanych zdań (odpowiadających tutaj konfiguracjom auto , auto_acl , auto_full_no_split i auto_full_with_split ).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (domyślna konfiguracja)

  • Opis konfiguracji: Zestaw 10 000 par zdań z Wikipedii ułożonych przez pracowników społecznościowych.

  • Rozmiar pliku do pobrania : 53.47 MiB

  • Rozmiar zestawu danych : 76.87 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'dev' 73249
'test' 118074
  • Struktura funkcji :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
Wynik GLEU Napinacz pływak64
etykieta_wyrównania Etykieta klasy int64
normalne_zdanie Tekst strunowy
normal_sentence_id Tekst strunowy
proste zdanie Tekst strunowy
simple_sentence_id Tekst strunowy

wiki_auto/auto_acl

  • Opis konfiguracji: pary zdań dopasowane do uczenia systemu ACL2020.

  • Rozmiar pliku do pobrania : 112.60 MiB

  • Rozmiar zestawu danych : 138.83 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pełne)

  • Podziały :

Rozdzielać Przykłady
'full' 488332
  • Struktura funkcji :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
normalne_zdanie Tekst strunowy
proste zdanie Tekst strunowy

wiki_auto/auto_full_no_split

  • Opis konfiguracji : Wszystkie automatycznie dopasowane pary zdań bez dzielenia zdań.

  • Rozmiar pliku do pobrania : 135.02 MiB

  • Rozmiar zestawu danych : 166.78 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pełne)

  • Podziały :

Rozdzielać Przykłady
'full' 591 994
  • Struktura funkcji :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
normalne_zdanie Tekst strunowy
proste zdanie Tekst strunowy

wiki_auto/auto_full_with_split

  • Opis konfiguracji : Wszystkie automatycznie dopasowane pary zdań z podziałem zdań.

  • Rozmiar pliku do pobrania : 115.09 MiB

  • Rozmiar zestawu danych : 141.20 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pełne)

  • Podziały :

Rozdzielać Przykłady
'full' 483801
  • Struktura funkcji :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
normalne_zdanie Tekst strunowy
proste zdanie Tekst strunowy

wiki_auto/auto

  • Opis konfiguracji: duży zestaw automatycznie dopasowanych par zdań.

  • Rozmiar pliku do pobrania : 2.01 GiB

  • Rozmiar zestawu danych : 1.76 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'part_1' 125059
'part_2' 13036
  • Struktura funkcji :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_przykładu Tekst strunowy
normalna FunkcjeDict
normalny/normalny_artykuł_zawartość Sekwencja
normalny/normalny_artykuł_zawartość/normalne_zdanie Tekst strunowy
normal/normal_article_content/normal_sentence_id Tekst strunowy
normalny/normalny_identyfikator_artykułu Napinacz int32
normalny/normalny_tytuł_artykułu Tekst strunowy
normalny/normalny_url_artykułu Tekst strunowy
wyrównanie_paragrafu Sekwencja
wyrównanie_paragrafu/identyfikator_normalnego_akapitu Tekst strunowy
akapit_wyrównanie/simple_paragraf_id Tekst strunowy
zdanie_wyrównanie Sekwencja
zdanie_wyrównanie/normalne_zdanie_id Tekst strunowy
zdanie_wyrównanie/simple_sentence_id Tekst strunowy
prosty FunkcjeDict
prosty/prosty_artykuł_zawartość Sekwencja
prosty/prosty_artykuł_zawartość/proste_zdanie Tekst strunowy
simple/simple_article_content/simple_sentence_id Tekst strunowy
prosty/prosty_identyfikator_artykułu Napinacz int32
prosty/prosty_tytuł_artykułu Tekst strunowy
prosty/prosty_url_artykułu Tekst strunowy