c4_wsrs

  • 설명 :

Common Crawl의 웹 크롤링 말뭉치의 거대하고 정리된 버전인 C4 데이터 세트에 웹 규모 역대체(wsrs)를 적용하는 의학 약어 확장 데이터 세트입니다.

원본 소스는 Common Crawl 데이터 세트입니다: https://commoncrawl.org

나뉘다
'train' 9,575,852
'validation' 991,422
  • 기능 구조 :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
abbreviated_snippet 텍스트
original_snippet 텍스트
  • 인용 :

c4_wsrs/default(기본 구성)