- विवरण :
बिलसम, यूएस कांग्रेसनल और कैलिफोर्निया राज्य बिलों का सारांश।
कई विशेषताएं हैं: - टेक्स्ट: बिल टेक्स्ट। - सारांश: बिलों का सारांश। - शीर्षक: विधेयकों का शीर्षक। हमारे लिए सुविधाएँ बिल। सीए बिल नहीं है। - text_len: पाठ में वर्णों की संख्या। - sum_len: सारांश में वर्णों की संख्या।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
स्रोत कोड :
tfds.datasets.billsum.Builderसंस्करण :
-
3.0.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड का आकार :
64.14 MiBडेटासेट का आकार :
260.84 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'ca_test' | 1,237 |
'test' | 3,269 |
'train' | 18,949 |
- फ़ीचर संरचना :
FeaturesDict({
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| सारांश | मूलपाठ | डोरी | ||
| मूलपाठ | मूलपाठ | डोरी | ||
| शीर्षक | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('text', 'summary')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@misc{kornilova2019billsum,
title={BillSum: A Corpus for Automatic Summarization of US Legislation},
author={Anastassia Kornilova and Vlad Eidelman},
year={2019},
eprint={1910.00523},
archivePrefix={arXiv},
primaryClass={cs.CL}
}