- Mô tả :
BIGPATENT, bao gồm 1,3 triệu bản ghi tài liệu bằng sáng chế của Hoa Kỳ cùng với các bản tóm tắt trừu tượng bằng văn bản của con người. Mỗi đơn xin cấp bằng sáng chế của Hoa Kỳ được nộp theo mã Phân loại bằng sáng chế hợp tác xã (CPC). Có chín loại phân loại như vậy:
- A (Nhu yếu phẩm của con người),
- B (Thực hiện các hoạt động; Vận chuyển),
- C (Hóa học; Luyện kim),
- D (Dệt; Giấy),
- E (Công trình cố định),
- F (Kỹ thuật cơ khí; Tia chớp; Hệ thống sưởi; Vũ khí; Nổ mìn),
- G (Vật lý),
- H (Điện) và
- Y (Gắn thẻ chung cho công nghệ mới hoặc cắt ngang)
Có hai tính năng:
- mô tả: mô tả chi tiết bằng sáng chế.
Tóm tắt: Bản tóm tắt bằng sáng chế.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://evasharma.github.io/bigpatent/
Mã nguồn :
tfds.datasets.big_patent.Builder
Phiên bản :
-
1.0.0
: các từ được mã hóa có chữ thường -
2.0.0
: Cập nhật để sử dụng chuỗi thô có vỏ -
2.1.2
(mặc định): Sửa lỗi cập nhật cho các chuỗi thô có vỏ.
-
Kích thước tải xuống :
9.45 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
trừu tượng | Chữ | sợi dây | ||
Sự miêu tả | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('description', 'abstract')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (cấu hình mặc định)
Mô tả cấu hình : Bằng sáng chế thuộc tất cả các danh mục.
Kích thước tập dữ liệu :
35.17 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 67,072 |
'train' | 1.207.222 |
'validation' | 67,068 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/a
Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)a: Sự cần thiết của con người
Kích thước tập dữ liệu :
5.16 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/b
Mô tả cấu hình : Bằng sáng chế theo Phân loại Bằng sáng chế Hợp tác (CPC)b: Thực hiện Hoạt động; vận chuyển
Kích thước tập dữ liệu :
4.06 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/c
Mô tả cấu hình : Bằng sáng chế theo Phân loại Bằng sáng chế Hợp tác (CPC)c: Hóa học; luyện kim
Kích thước tập dữ liệu :
3.63 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/d
Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)d: Dệt may; Giấy
Kích thước tập dữ liệu :
255.56 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/e
Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)e: Công trình cố định
Kích thước tập dữ liệu :
871.40 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.914 |
'train' | 34,443 |
'validation' | 1.914 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/f
Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)f: Kỹ thuật cơ khí; Tia chớp; Sưởi; Vũ khí; nổ mìn
Kích thước tập dữ liệu :
2.06 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/g
Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)g: Vật lý
Kích thước tập dữ liệu :
8.19 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14.385 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/h
Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)h: Điện
Kích thước tập dữ liệu :
7.50 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- Ví dụ ( tfds.as_dataframe ):
big_patent/y
Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)y: Gắn thẻ chung cho công nghệ mới hoặc công nghệ chéo
Kích thước tập dữ liệu :
3.46 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- Ví dụ ( tfds.as_dataframe ):