paws_x_wiki

  • Описание :

Этот набор данных содержит 23 659 оценочных пар PAWS, переведенных человеком, и 296 406 обучающих пар, переведенных машинным способом, на шести типологически различных языках:

  • Французский
  • испанский
  • Немецкий
  • китайский язык
  • Японский
  • Корейский

Дополнительные сведения см. в сопроводительном документе: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification по адресу https://arxiv.org/abs/1908.11828 .

Подобно набору данных PAWS, примеры разбиты на разделы «Обучение/Разработка/Тестирование». Все файлы в формате tsv с четырьмя столбцами:

id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение Метка (noisy_) Метка (шумная) для каждой пары

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет другое значение, а 1 указывает, что пара является перефразированием.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса tf.int64
предложение1 Текст tf.string
предложение2 Текст tf.string
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (конфигурация по умолчанию)

  • Описание конфига : переведено на де

  • Размер набора данных : 15.27 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 380
'validation' 2000

paws_x_wiki/ru

  • Описание конфига : Переведено на en

  • Размер набора данных : 14.59 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 175
'validation' 2000

paws_x_wiki/es

  • Описание конфига : переведено на es

  • Размер набора данных : 15.27 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 401
'validation' 1961

paws_x_wiki/fr

  • Описание конфигурации : переведено на фр.

  • Размер набора данных : 15.79 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 399
'validation' 1988

paws_x_wiki/ja

  • Описание конфигурации : переведено на ja

  • Размер набора данных : 17.77 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 401
'validation' 2000

paws_x_wiki/ko

  • Описание конфигурации : переведено на ko

  • Размер набора данных : 16.42 MiB .

  • Сплиты :

Расколоть Примеры
'test' 1999
'train' 49 164
'validation' 2000

paws_x_wiki/ж

  • Описание конфига : Переведено на zh

  • Размер набора данных : 13.20 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 401
'validation' 2000