19페이지

  • 설명 :

이 데이터 세트에는 PG-19 언어 모델링 벤치마크가 포함되어 있습니다. 여기에는 1919년 이전에 출판된 Project Gutenberg 책 프로젝트( https://www.gutenberg.org )에서 추출한 일련의 책이 포함됩니다. 또한 책 제목 및 출판 날짜의 메타데이터도 포함됩니다. PG-19는 Billion Word 벤치마크 크기의 두 배 이상이며 WikiText 장거리 언어 모델링 벤치마크보다 평균적으로 20배 더 긴 문서를 포함합니다.

책은 기차, 검증 및 테스트 세트로 분할됩니다. 책 메타데이터는 (book_id, short_book_title, publication_date, book_link)를 포함하는 metadata.csv에 저장됩니다.

나뉘다
'test' 100
'train' 28,602
'validation' 50
  • 기능 구조 :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
book_id 텐서 int32
책_링크 텐서
책_텍스트 텍스트
책 제목 텐서
발행일 텐서
  • 인용 :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • 설명 :

이 데이터 세트에는 PG-19 언어 모델링 벤치마크가 포함되어 있습니다. 여기에는 1919년 이전에 출판된 Project Gutenberg 책 프로젝트( https://www.gutenberg.org )에서 추출한 일련의 책이 포함됩니다. 또한 책 제목 및 출판 날짜의 메타데이터도 포함됩니다. PG-19는 Billion Word 벤치마크 크기의 두 배 이상이며 WikiText 장거리 언어 모델링 벤치마크보다 평균적으로 20배 더 긴 문서를 포함합니다.

책은 기차, 검증 및 테스트 세트로 분할됩니다. 책 메타데이터는 (book_id, short_book_title, publication_date, book_link)를 포함하는 metadata.csv에 저장됩니다.

나뉘다
'test' 100
'train' 28,602
'validation' 50
  • 기능 구조 :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
book_id 텐서 int32
책_링크 텐서
책_텍스트 텍스트
책 제목 텐서
발행일 텐서
  • 인용 :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}