gigaword
קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
יצירת כותרות על קורפוס של צמדי מאמרים מ-Gigaword המורכב מכ-4 מיליון מאמרים. השתמש ב-'org_data' שסופק על ידי https://github.com/microsoft/unilm/ וזהה ל- https://github.com/harvardnlp/sent-summary אבל עם פורמט טוב יותר.
ישנן שתי תכונות: - מסמך: מאמר. - סיכום: כותרת.
לְפַצֵל | דוגמאות |
---|
'test' | 1,951 |
'train' | 3,803,957 |
'validation' | 189,651 |
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|
| FeaturesDict | | | |
מסמך | טֶקסט | | חוּט | |
סיכום | טֶקסט | | חוּט | |
@article{graff2003english,
title={English gigaword},
author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki},
journal={Linguistic Data Consortium, Philadelphia},
volume={4},
number={1},
pages={34},
year={2003}
}
@article{Rush_2015,
title={A Neural Attention Model for Abstractive Sentence Summarization},
url={http://dx.doi.org/10.18653/v1/D15-1044},
DOI={10.18653/v1/d15-1044},
journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},
publisher={Association for Computational Linguistics},
author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason},
year={2015}
}
אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0. לפרטים, ניתן לעיין במדיניות האתר Google Developers. Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.
עדכון אחרון: 2022-12-06 (שעון UTC).
[null,null,["עדכון אחרון: 2022-12-06 (שעון UTC)."],[],[],null,["# gigaword\n\n\u003cbr /\u003e\n\n- **Description**:\n\nHeadline-generation on a corpus of article pairs from Gigaword consisting of\naround 4 million articles. Use the 'org_data' provided by\n\u003chttps://github.com/microsoft/unilm/\u003e which is identical to\n\u003chttps://github.com/harvardnlp/sent-summary\u003e but with better format.\n\nThere are two features: - document: article. - summary: headline.\n\n- **Homepage** :\n \u003chttps://github.com/harvardnlp/sent-summary\u003e\n\n- **Source code** :\n [`tfds.summarization.Gigaword`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/summarization/gigaword.py)\n\n- **Versions**:\n\n - **`1.2.0`** (default): No release notes.\n- **Download size** : `551.61 MiB`\n\n- **Dataset size** : `1.02 GiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n No\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|-----------|\n| `'test'` | 1,951 |\n| `'train'` | 3,803,957 |\n| `'validation'` | 189,651 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'document': Text(shape=(), dtype=string),\n 'summary': Text(shape=(), dtype=string),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|----------|--------------|-------|--------|-------------|\n| | FeaturesDict | | | |\n| document | Text | | string | |\n| summary | Text | | string | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('document', 'summary')`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @article{graff2003english,\n title={English gigaword},\n author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki},\n journal={Linguistic Data Consortium, Philadelphia},\n volume={4},\n number={1},\n pages={34},\n year={2003}\n }\n\n @article{Rush_2015,\n title={A Neural Attention Model for Abstractive Sentence Summarization},\n url={http://dx.doi.org/10.18653/v1/D15-1044},\n DOI={10.18653/v1/d15-1044},\n journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},\n publisher={Association for Computational Linguistics},\n author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason},\n year={2015}\n }"]]