big_patent

  • 説明:

BIGPATENT。130 万件の米国特許文書のレコードと人間が書いた抽象的な要約で構成されています。各米国特許出願は、共同特許分類 (CPC) コードに基づいて提出されます。このような分類カテゴリは 9 つあります。

  • A (人的必需品)、
  • B (作業の実行、輸送)、
  • C (化学; 冶金)、
  • D(繊維、紙)、
  • E (固定構造)、
  • F (機械工学、雷、加熱、武器、爆破)、
  • G(物理学)、
  • H(電気)、および
  • Y (新しい技術または横断的な技術の一般的なタグ付け)

次の 2 つの特徴があります。

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
概要文章
説明文章
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (デフォルト設定)

  • 構成の説明: すべてのカテゴリの特許。

  • データセットのサイズ: 35.17 GiB

  • 分割:

スプリット
'test' 67,072
'train' 1,207,222
'validation' 67,068

ビッグパテント/a

  • 構成の説明: 協同特許分類 (CPC) に基づく特許 a: 人間の必需品

  • データセットのサイズ: 5.16 GiB

  • 分割:

スプリット
'test' 9,675
'train' 174,134
'validation' 9,674

ビッグパテント/b

  • 構成の説明: 協力特許分類 (CPC) に基づく特許 b: 操作の実行。輸送

  • データセットのサイズ: 4.06 GiB

  • 分割:

スプリット
'test' 8,974
'train' 161,520
'validation' 8,973

big_patent/c

  • 構成の説明: 協同特許分類 (CPC) に基づく特許 c: 化学。冶金

  • データセットのサイズ: 3.63 GiB

  • 分割:

スプリット
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/d

  • 構成の説明: 協同特許分類 (CPC) に基づく特許: 繊維;紙

  • データセットのサイズ: 255.56 MiB

  • 分割:

スプリット
'test' 565
'train' 10,164
'validation' 565

big_patent/e

  • 構成の説明: 協同特許分類 (CPC) に基づく特許 e: 固定構造

  • データセットのサイズ: 871.40 MiB

  • 分割:

スプリット
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/f

  • 構成の説明: 共同特許分類 (CPC) に基づく特許: 機械工学。雷;暖房;兵器;ブラスト

  • データセットのサイズ: 2.06 GiB

  • 分割:

スプリット
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

  • 構成の説明: 協同特許分類 (CPC) に基づく特許 g: 物理学

  • データセットのサイズ: 8.19 GiB

  • 分割:

スプリット
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/h

  • 構成の説明: 協同特許分類 (CPC) に基づく特許 h: 電気

  • データセットのサイズ: 7.50 GiB

  • 分割:

スプリット
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/y

  • 構成の説明: 共同特許分類 (CPC) に基づく特許 y: 新しい技術または横断的な技術の一般的なタグ付け

  • データセットのサイズ: 3.46 GiB

  • 分割:

スプリット
'test' 6,911
'train' 124,397
'validation' 6,911