big_patent

  • Mô tả :

BIGPATENT, bao gồm 1,3 triệu hồ sơ tài liệu bằng sáng chế của Hoa Kỳ cùng với các bản tóm tắt trừu tượng bằng văn bản của con người. Mỗi đơn xin cấp bằng sáng chế của Hoa Kỳ được nộp theo mã Phân loại Bằng sáng chế Hợp tác (CPC). Có chín loại phân loại như vậy: A (Nhu cầu con người), B (Thực hiện các hoạt động; Vận chuyển), C (Hóa học; Luyện kim), D (Dệt may; Giấy), E (Công trình cố định), F (Cơ khí; Sét; Hệ thống sưởi; Vũ khí; Vụ nổ), G (Vật lý), H (Điện) và Y (Gắn thẻ chung cho công nghệ mới hoặc mặt cắt ngang)

Có hai đặc điểm: - Mô tả: mô tả chi tiết về bằng sáng chế. - tóm tắt: abastract bằng sáng chế.

  • Trang chủ : https://evasharma.github.io/bigpatent/

  • Mã nguồn : tfds.summarization.BigPatent

  • Các phiên bản :

    • 1.0.0 : các từ được mã hóa nghiêng thấp hơn
    • 2.0.0 : Cập nhật để sử dụng chuỗi thô cased
    • 2.1.2 (mặc định): Sửa lỗi cập nhật cho các chuỗi thô đã được lồng vào.
  • Kích thước tải xuống : 9.45 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Cấu trúc tính năng :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
trừu tượng Chữ tf.string
sự mô tả Chữ tf.string
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent / all (cấu hình mặc định)

  • Mô tả cấu hình : Bằng sáng chế thuộc tất cả các hạng mục.

  • Kích thước tập dữ liệu : 35.17 GiB

  • Tách :

Tách ra Các ví dụ
'test' 67.072
'train' 1.207.222
'validation' 67.068

big_patent / a

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) a: Nhu cầu con người

  • Kích thước tập dữ liệu : 5.16 GiB

  • Tách :

Tách ra Các ví dụ
'test' 9,675
'train' 174.134
'validation' 9,674

big_patent / b

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) b: Thực hiện các hoạt động; Vận chuyển

  • Kích thước tập dữ liệu : 4.06 GiB

  • Tách :

Tách ra Các ví dụ
'test' 8.974
'train' 161.520
'validation' 8.973

big_patent / c

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) c: Hóa học; Luyện kim

  • Kích thước tập dữ liệu : 3.63 GiB

  • Tách :

Tách ra Các ví dụ
'test' 5.614
'train' 101.042
'validation' 5.613

big_patent / d

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) d: Hàng dệt; Giấy

  • Kích thước tập dữ liệu: 255.56 MiB

  • Tách :

Tách ra Các ví dụ
'test' 565
'train' 10.164
'validation' 565

big_patent / e

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) e: Công trình cố định

  • Kích thước tập dữ liệu: 871.40 MiB

  • Tách :

Tách ra Các ví dụ
'test' 1.914
'train' 34.443
'validation' 1.914

big_patent / f

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) f: Cơ khí; Tia chớp; Sưởi; Vũ khí; Nổ mìn

  • Kích thước tập dữ liệu : 2.06 GiB

  • Tách :

Tách ra Các ví dụ
'test' 4.754
'train' 85.568
'validation' 4.754

big_patent / g

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) g: Vật lý

  • Kích thước tập dữ liệu : 8.19 GiB

  • Tách :

Tách ra Các ví dụ
'test' 14.386
'train' 258,935
'validation' 14.385

big_patent / h

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) h: Điện

  • Kích thước tập dữ liệu : 7.50 GiB

  • Tách :

Tách ra Các ví dụ
'test' 14.279
'train' 257.019
'validation' 14.279

big_patent / y

  • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC) y: Gắn thẻ chung cho công nghệ mới hoặc công nghệ cắt ngang

  • Kích thước tập dữ liệu : 3.46 GiB

  • Tách :

Tách ra Các ví dụ
'test' 6.911
'train' 124.397
'validation' 6.911