- Deskripsi :
BillSum, ringkasan tagihan Kongres AS dan negara bagian California.
Ada beberapa fitur: - teks: teks tagihan. - ringkasan: ringkasan tagihan. - judul: judul tagihan. fitur untuk kami tagihan. tagihan ca tidak memiliki. - text_len: jumlah karakter dalam teks. - sum_len: jumlah karakter dalam ringkasan.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/FiscalNote/BillSum
Kode sumber :
tfds.datasets.billsum.BuilderVersi :
-
3.0.0(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
64.14 MiBUkuran dataset :
260.84 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'ca_test' | 1.237 |
'test' | 3.269 |
'train' | 18.949 |
- Struktur fitur :
FeaturesDict({
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| ringkasan | Teks | rangkaian | ||
| teks | Teks | rangkaian | ||
| judul | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('text', 'summary')Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@misc{kornilova2019billsum,
title={BillSum: A Corpus for Automatic Summarization of US Legislation},
author={Anastassia Kornilova and Vlad Eidelman},
year={2019},
eprint={1910.00523},
archivePrefix={arXiv},
primaryClass={cs.CL}
}