скицит

  • Описание :

Это набор данных для классификации целей цитирования в научных статьях. Метка основного намерения цитирования для каждого объекта Json указывается с помощью ключа label, а контекст цитирования указывается с помощью ключа контекста. Пример: { 'строка': 'У павианов чакма отношения между самцом и детенышем могут быть связаны как с формированием дружбы, так и с успехом в отцовстве [30,31].' 'sectionName': 'Introduction', 'label': 'background', 'citingPaperId': '7a6b2d4b405439', 'citedPaperId': '9d1abadc55b5e0', ... } Вы можете получить полную информацию о статье, используя предоставленные идентификаторы статьи с помощью Semantic Scholar API ( https://api.semanticscholar.org/ ). Ярлыки: Метод, Фон, Результат.

  • Домашняя страница : https://github.com/allenai/scicite

  • Исходный код : tfds.text.Scicite

  • Версии :

    • 1.0.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : 22.12 MiB .

  • Размер набора данных : Unknown size

  • Автокэширование ( документация ): неизвестно

  • Сплиты :

Расколоть Примеры
'test' 1859
'train' 8194
'validation' 916
  • Структура функции :
FeaturesDict({
    'citeEnd': tf.int64,
    'citeStart': tf.int64,
    'citedPaperId': Text(shape=(), dtype=tf.string),
    'citingPaperId': Text(shape=(), dtype=tf.string),
    'excerpt_index': tf.int32,
    'id': Text(shape=(), dtype=tf.string),
    'isKeyCitation': tf.bool,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'label2': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'label2_confidence': tf.float32,
    'label_confidence': tf.float32,
    'sectionName': Text(shape=(), dtype=tf.string),
    'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=7),
    'string': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
citeEnd Тензор tf.int64
citeStart Тензор tf.int64
процитированныйPaperId Текст tf.string
цитированиеPaperId Текст tf.string
excerpt_index Тензор tf.int32
я бы Текст tf.string
isKeyCitation Тензор tf.bool
этикетка Метка класса tf.int64
метка2 Метка класса tf.int64
label2_confidence Тензор tf.float32
label_confidence Тензор tf.float32
sectionName Текст tf.string
источник Метка класса tf.int64
нить Текст tf.string
  • Цитата :
@InProceedings{Cohan2019Structural,
  author={Arman Cohan and Waleed Ammar and Madeleine Van Zuylen and Field Cady},
  title={Structural Scaffolds for Citation Intent Classification in Scientific Publications},
  booktitle="NAACL",
  year="2019"
}