paws_wiki

  • Описание :

В существующих наборах данных идентификации перефразирования отсутствуют пары предложений с высоким лексическим перекрытием, но не являющиеся перефразированием. Модели, обученные на таких данных, не могут различать такие пары, как рейсы из Нью-Йорка во Флориду и рейсы из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 пары, помеченные человеком, и 656 тыс. пар, помеченных шумом, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации парафраз.

Дополнительные сведения см. в сопроводительном документе: PAWS: Paraphrase Adversaries from Word Scrambling по адресу https://arxiv.org/abs/1904.01130 .

Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, сгенерированные как методом замены слов, так и методом обратного перевода. Все пары имеют человеческие суждения как о перефразировании, так и о беглости, и они разделены на разделы «Обучение/Разработка/Тестирование».

Все файлы в формате tsv с четырьмя столбцами:

id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение Метка (noisy_) Метка (шумная) для каждой пары

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет другое значение, а 1 указывает, что пара является перефразированием.

  • Домашняя страница : https://github.com/google-research-datasets/paws

  • Исходный код : tfds.text.PawsWiki

  • Версии :

    • 1.0.0 : Начальная версия.
    • 1.1.0 (по умолчанию): Добавляет конфигурации в другое подмножество и поддерживает необработанный текст.
  • Размер загрузки : 57.47 MiB

  • Структура функции :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса tf.int64
предложение1 Текст tf.string
предложение2 Текст tf.string
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (конфигурация по умолчанию)

  • Описание конфигурации : Подмножество: labeled_final tokenized: True

  • Размер набора данных : 17.96 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 8000
'train' 49 401
'validation' 8000

paws_wiki/labeled_final_raw

  • Описание конфигурации : Подмножество: labeled_final tokenized: False

  • Размер набора данных : 17.57 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 8000
'train' 49 401
'validation' 8000

paws_wiki/labeled_swap_tokenized

  • Описание конфигурации : Подмножество: labeled_swap tokenized: True

  • Размер набора данных : 8.79 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 30 397

paws_wiki/labeled_swap_raw

  • Описание конфигурации : Подмножество: labeled_swap tokenized: False

  • Размер набора данных : 8.60 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 30 397

paws_wiki/unlabeled_final_tokenized

  • Описание конфигурации : Подмножество: unlabeled_final tokenized: True

  • Размер набора данных : 177.89 MiB .

  • Автоматическое кэширование ( документация ): Да (проверка), только когда shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'train' 645 652
'validation' 10 000