paws_wiki

Описание :

В существующих наборах данных идентификации перефразирования отсутствуют пары предложений с высоким лексическим перекрытием, но не являющиеся перефразированием. Модели, обученные на таких данных, не могут различать такие пары, как рейсы из Нью-Йорка во Флориду и рейсы из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 пары, помеченные человеком, и 656 тыс. пар, помеченных шумом, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации парафраз.

Дополнительные сведения см. в сопроводительном документе: PAWS: Paraphrase Adversaries from Word Scrambling по адресу https://arxiv.org/abs/1904.01130 .

Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, сгенерированные как методом замены слов, так и методом обратного перевода. Все пары имеют человеческие суждения как о перефразировании, так и о беглости, и они разделены на разделы «Обучение/Разработка/Тестирование».

Все файлы в формате tsv с четырьмя столбцами:

id : уникальный идентификатор для каждой пары.
sentence1 : Первое предложение.
sentence2 : Второе предложение.
(noisy_)label : (Шумная) метка для каждой пары.

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет другое значение, а 1 указывает, что пара является перефразированием.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/google-research-datasets/paws
Исходный код : tfds.datasets.paws_wiki.Builder
Версии :
- 1.0.0 : Начальная версия.
- 1.1.0 (по умолчанию): Добавляет конфигурации в другое подмножество и поддерживает необработанный текст.
Размер загрузки : 57.47 MiB
Структура функции :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
этикетка	Метка класса	int64
предложение1	Текст	нить
предложение2	Текст	нить

Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (конфигурация по умолчанию)

Описание конфигурации : Подмножество: labeled_final tokenized: True
Размер набора данных : 17.96 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	8000
`'train'`	49 401
`'validation'`	8000

Примеры ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

Описание конфигурации : Подмножество: labeled_final tokenized: False
Размер набора данных : 17.57 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	8000
`'train'`	49 401
`'validation'`	8000

Примеры ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

Описание конфигурации : Подмножество: labeled_swap tokenized: True
Размер набора данных : 8.79 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	30 397

Примеры ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

Описание конфигурации : Подмножество: labeled_swap tokenized: False
Размер набора данных : 8.60 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	30 397

Примеры ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

Описание конфигурации : Подмножество: unlabeled_final tokenized: True
Размер набора данных : 177.89 MiB .
Автоматическое кэширование ( документация ): Да (проверка), только когда shuffle_files=False (поезд)
Сплиты :

Расколоть	Примеры
`'train'`	645 652
`'validation'`	10 000

Примеры ( tfds.as_dataframe ):

paws_wiki Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.