большой_патент

  • Описание :

BIGPATENT, состоящий из 1,3 миллиона записей патентных документов США, а также реферативных резюме, написанных человеком. Каждая заявка на патент США подается под кодом Совместной патентной классификации (CPC). Таких классификационных категорий девять: А (Человеческие потребности), В (Выполнение операций; Транспортировка), С (Химия; Металлургия), D (Текстиль; Бумага), Е (Стационарные конструкции), F (Машиностроение, Молния, Отопление, Электротехника). Оружие; взрывные работы), G (физика), H (электричество) и Y (общая маркировка новых или перекрестных технологий)

Есть две особенности: - описание: подробное описание патента. - резюме: Автореферат патента.

  • Домашняя страница : https://evasharma.github.io/bigpatent/

  • Исходный код : tfds.summarization.BigPatent

  • Версии :

    • 1.0.0 : токенизированные слова в нижнем регистре
    • 2.0.0 : обновление для использования необработанных строк с регистром
    • 2.1.2 (по умолчанию): исправлено обновление необработанных строк с регистром.
  • Размер загрузки : 9.45 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
Аннотация Текст tf.string
описание Текст tf.string
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (конфигурация по умолчанию)

  • Описание конфигурации : Патенты по всем категориям.

  • Размер набора данных : 35.17 GiB

  • Сплиты :

Расколоть Примеры
'test' 67 072
'train' 1 207 222
'validation' 67 068

большой_патент/а

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)a: Человеческие потребности

  • Размер набора данных : 5.16 GiB

  • Сплиты :

Расколоть Примеры
'test' 9675
'train' 174 134
'validation' 9674

большой_патент/б

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)b: Выполнение операций; Транспортировка

  • Размер набора данных : 4.06 GiB

  • Сплиты :

Расколоть Примеры
'test' 8974
'train' 161 520
'validation' 8973

big_patent/c

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)c: Химия; Металлургия

  • Размер набора данных : 3.63 GiB

  • Сплиты :

Расколоть Примеры
'test' 5614
'train' 101 042
'validation' 5613

big_patent/d

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)d: Текстиль; Бумага

  • Размер набора данных : 255.56 MiB .

  • Сплиты :

Расколоть Примеры
'test' 565
'train' 10 164
'validation' 565

big_patent/е

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)e: Фиксированные конструкции

  • Размер набора данных : 871.40 MiB .

  • Сплиты :

Расколоть Примеры
'test' 1914
'train' 34 443
'validation' 1914

big_patent/f

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)f: Машиностроение; Молния; Обогрев; Оружие; взрывные работы

  • Размер набора данных : 2.06 GiB

  • Сплиты :

Расколоть Примеры
'test' 4754
'train' 85 568
'validation' 4754

большой_патент/г

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)g: Физика

  • Размер набора данных : 8.19 GiB

  • Сплиты :

Расколоть Примеры
'test' 14 386
'train' 258 935
'validation' 14 385

big_patent/ч

  • Описание конфигурации : Патенты в соответствии с совместной патентной классификацией (CPC)h: Электричество

  • Размер набора данных : 7.50 GiB

  • Сплиты :

Расколоть Примеры
'test' 14 279
'train' 257 019
'validation' 14 279

big_patent/г

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)y: Общая маркировка новой или перекрестной технологии

  • Размер набора данных : 3.46 GiB

  • Сплиты :

Расколоть Примеры
'test' 6911
'train' 124 397
'validation' 6911