- Описание :
Набор данных расширения медицинских аббревиатур, который применяет обратную замену в веб-масштабе (wsrs) к набору данных C4, который представляет собой колоссальную, очищенную версию корпуса веб-сканирования Common Crawl.
Исходным источником является набор данных Common Crawl: https://commoncrawl.org .
Описание конфигурации : набор данных C4-WSRS по умолчанию.
Домашняя страница : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Исходный код :
tfds.text.c4_wsrs.C4WSRSВерсии :
-
1.0.0(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
143.01 KiBРазмер набора данных :
5.84 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 9 575 852 |
'validation' | 991 422 |
- Структура функции :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| сокращенный_фрагмент | Текст | нить | ||
| original_snippet | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :