lm1b

Ссылки:

обычный_текст

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:lm1b/plain_text')

A benchmark corpus to be used for measuring progress in statistical language modeling. This has almost one billion words in the training data.

Расколоть	Примеры
`'test'`	306688
`'train'`	30301028

{
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons "С указанием авторства 4.0", а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

Последнее обновление: 2024-11-25 UTC.