актив

  • Описание :

ASSET — это набор данных для оценки систем упрощения предложений с несколькими преобразованиями перезаписи, как описано в статье «ASSET: набор данных для настройки и оценки моделей упрощения предложений с несколькими преобразованиями перезаписи». Корпус состоит из 2000 проверочных и 359 тестовых исходных предложений, каждое из которых было упрощено в 10 раз разными аннотаторами. Корпус также содержит человеческие суждения о сохранении значения, беглости и простоте выходных данных нескольких систем автоматического упрощения текста.

@inproceedings{alva-manchego-etal-2020-asset,
    title
= "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author
= "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia"
,
    booktitle
= "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month
= jul,
    year
= "2020",
    address
= "Online",
    publisher
= "Association for Computational Linguistics",
    url
= "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages
= "4668--4679",
}

актив/упрощение (конфигурация по умолчанию)

  • Описание конфига : набор оригинальных предложений, выровненных с 10 возможными упрощениями для каждого.

  • Размер набора данных : 2.64 MiB .

  • Сплиты :

Расколоть Примеры
'test' 359
'validation' 2000
  • Структура функции :
FeaturesDict({
   
'original': Text(shape=(), dtype=string),
   
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
оригинальный Текст нить
упрощения Последовательность (текст) (Никто,) нить

актив/рейтинги

  • Описание конфигурации : человеческие оценки автоматически создаваемого упрощения текста.

  • Размер набора данных : 1.44 MiB .

  • Сплиты :

Расколоть Примеры
'full' 4500
  • Структура функции :
FeaturesDict({
   
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
'original': Text(shape=(), dtype=string),
   
'original_sentence_id': int32,
   
'rating': int32,
   
'simplification': Text(shape=(), dtype=string),
   
'worker_id': int32,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
аспект Метка класса int64
оригинальный Текст нить
original_sentence_id Тензор int32
рейтинг Тензор int32
упрощение Текст нить
worker_id Тензор int32