جيجاورد
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
إنشاء عنوان رئيسي على مجموعة أزواج المقالات من Gigaword تتكون من حوالي 4 ملايين مقالة. استخدم "org_data" المقدم من https://github.com/microsoft/unilm/ والذي يتطابق مع https://github.com/harvardnlp/sent-summary ولكن بتنسيق أفضل.
هناك ميزتان: - المستند: مقال. - الملخص: العنوان.
انشق، مزق | أمثلة |
---|
'test' | 1951 |
'train' | 3،803،957 |
'validation' | 189651 |
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
ميزة | فصل | شكل | نوع | وصف |
---|
| الميزات | | | |
وثيقة | نص | | سلسلة | |
ملخص | نص | | سلسلة | |
@article{graff2003english,
title={English gigaword},
author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki},
journal={Linguistic Data Consortium, Philadelphia},
volume={4},
number={1},
pages={34},
year={2003}
}
@article{Rush_2015,
title={A Neural Attention Model for Abstractive Sentence Summarization},
url={http://dx.doi.org/10.18653/v1/D15-1044},
DOI={10.18653/v1/d15-1044},
journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},
publisher={Association for Computational Linguistics},
author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason},
year={2015}
}
إنّ محتوى هذه الصفحة مرخّص بموجب ترخيص Creative Commons Attribution 4.0 ما لم يُنصّ على خلاف ذلك، ونماذج الرموز مرخّصة بموجب ترخيص Apache 2.0. للاطّلاع على التفاصيل، يُرجى مراجعة سياسات موقع Google Developers. إنّ Java هي علامة تجارية مسجَّلة لشركة Oracle و/أو شركائها التابعين.
تاريخ التعديل الأخير: 2022-12-06 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2022-12-06 (حسب التوقيت العالمي المتفَّق عليه)"],[],[],null,["# gigaword\n\n\u003cbr /\u003e\n\n- **Description**:\n\nHeadline-generation on a corpus of article pairs from Gigaword consisting of\naround 4 million articles. Use the 'org_data' provided by\n\u003chttps://github.com/microsoft/unilm/\u003e which is identical to\n\u003chttps://github.com/harvardnlp/sent-summary\u003e but with better format.\n\nThere are two features: - document: article. - summary: headline.\n\n- **Homepage** :\n \u003chttps://github.com/harvardnlp/sent-summary\u003e\n\n- **Source code** :\n [`tfds.summarization.Gigaword`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/summarization/gigaword.py)\n\n- **Versions**:\n\n - **`1.2.0`** (default): No release notes.\n- **Download size** : `551.61 MiB`\n\n- **Dataset size** : `1.02 GiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n No\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|-----------|\n| `'test'` | 1,951 |\n| `'train'` | 3,803,957 |\n| `'validation'` | 189,651 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'document': Text(shape=(), dtype=string),\n 'summary': Text(shape=(), dtype=string),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|----------|--------------|-------|--------|-------------|\n| | FeaturesDict | | | |\n| document | Text | | string | |\n| summary | Text | | string | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('document', 'summary')`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @article{graff2003english,\n title={English gigaword},\n author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki},\n journal={Linguistic Data Consortium, Philadelphia},\n volume={4},\n number={1},\n pages={34},\n year={2003}\n }\n\n @article{Rush_2015,\n title={A Neural Attention Model for Abstractive Sentence Summarization},\n url={http://dx.doi.org/10.18653/v1/D15-1044},\n DOI={10.18653/v1/d15-1044},\n journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},\n publisher={Association for Computational Linguistics},\n author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason},\n year={2015}\n }"]]