hal19

  • Deskripsi :

Dataset ini berisi tolok ukur pemodelan bahasa PG-19. Ini termasuk satu set buku yang diambil dari proyek buku Proyek Gutenberg ( https://www.gutenberg.org ), yang diterbitkan sebelum 1919. Ini juga berisi metadata judul buku dan tanggal publikasi. PG-19 lebih dari dua kali lipat ukuran tolok ukur Miliar Kata dan berisi dokumen yang rata-rata 20X lebih panjang daripada tolok ukur pemodelan bahasa jangka panjang WikiText.

Buku dipartisi menjadi rangkaian kereta, validasi, dan pengujian. Metadata buku disimpan di metadata.csv yang berisi (book_id, short_book_title, publication_date, book_link).

Membelah Contoh
'test' 100
'train' 28.602
'validation' 50
  • Struktur fitur :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
book_id Tensor int32
book_link Tensor rangkaian
book_text Teks rangkaian
judul buku Tensor rangkaian
Tanggal penerbitan Tensor rangkaian
  • Kutipan :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}
,

  • Deskripsi :

Dataset ini berisi tolok ukur pemodelan bahasa PG-19. Ini termasuk satu set buku yang diambil dari proyek buku Proyek Gutenberg ( https://www.gutenberg.org ), yang diterbitkan sebelum 1919. Ini juga berisi metadata judul buku dan tanggal publikasi. PG-19 lebih dari dua kali lipat ukuran tolok ukur Miliar Kata dan berisi dokumen yang rata-rata 20X lebih panjang daripada tolok ukur pemodelan bahasa jangka panjang WikiText.

Buku dipartisi menjadi rangkaian kereta, validasi, dan pengujian. Metadata buku disimpan di metadata.csv yang berisi (book_id, short_book_title, publication_date, book_link).

Membelah Contoh
'test' 100
'train' 28.602
'validation' 50
  • Struktur fitur :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
book_id Tensor int32
book_link Tensor rangkaian
book_text Teks rangkaian
judul buku Tensor rangkaian
Tanggal penerbitan Tensor rangkaian
  • Kutipan :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}