- 설명 :
Common Crawl의 웹 크롤링 말뭉치의 거대하고 정리된 버전인 C4 데이터 세트에 웹 규모 역대체(wsrs)를 적용하는 의학 약어 확장 데이터 세트입니다.
원본 소스는 Common Crawl 데이터 세트입니다: https://commoncrawl.org
구성 설명 : 기본 C4-WSRS 데이터 세트.
홈페이지 : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
소스 코드 :
tfds.text.c4_wsrs.C4WSRS
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
143.01 KiB
데이터세트 크기 :
5.84 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- 기능 구조 :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
abbreviated_snippet | 텍스트 | 끈 | ||
original_snippet | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :