19페이지

  • 설명 :

이 데이터 세트에는 PG-19 언어 모델링 벤치마크가 포함되어 있습니다. 여기에는 1919년 이전에 출판된 Project Gutenberg 책 프로젝트( https://www.gutenberg.org )에서 추출한 일련의 책이 포함됩니다. 또한 책 제목 및 출판 날짜의 메타데이터도 포함됩니다. PG-19는 Billion Word 벤치마크 크기의 두 배 이상이며 WikiText 장거리 언어 모델링 벤치마크보다 평균적으로 20배 더 긴 문서를 포함합니다.

책은 기차, 검증 및 테스트 세트로 분할됩니다. 책 메타데이터는 (book_id, short_book_title, publication_date, book_link)를 포함하는 metadata.csv에 저장됩니다.

나뉘다
'test' 100
'train' 28,602
'validation' 50
  • 기능 구조 :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
book_id 텐서 int32
책_링크 텐서
책_텍스트 텍스트
책 제목 텐서
발행일 텐서
  • 인용 :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}
,

  • 설명 :

이 데이터 세트에는 PG-19 언어 모델링 벤치마크가 포함되어 있습니다. 여기에는 1919년 이전에 출판된 Project Gutenberg 책 프로젝트( https://www.gutenberg.org )에서 추출한 일련의 책이 포함됩니다. 또한 책 제목 및 출판 날짜의 메타데이터도 포함됩니다. PG-19는 Billion Word 벤치마크 크기의 두 배 이상이며 WikiText 장거리 언어 모델링 벤치마크보다 평균적으로 20배 더 긴 문서를 포함합니다.

책은 기차, 검증 및 테스트 세트로 분할됩니다. 책 메타데이터는 (book_id, short_book_title, publication_date, book_link)를 포함하는 metadata.csv에 저장됩니다.

나뉘다
'test' 100
'train' 28,602
'validation' 50
  • 기능 구조 :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
book_id 텐서 int32
책_링크 텐서
책_텍스트 텍스트
책 제목 텐서
발행일 텐서
  • 인용 :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}