- 説明:
このデータセットには、reddit からの約 3M のメッセージが含まれています。すべてのメッセージはメタデータでラベル付けされています。タスクは、対応するスレッドで親メッセージの ID を予測することです。各レコードには、1 つのスレッドからのメッセージのリストが含まれています。重複したレコードや壊れたレコードはデータセットから削除されます。
機能は次のとおりです。
- id - メッセージ ID
- テキスト - メッセージテキスト
- 作者 - メッセージ作者
- created_utc - メッセージの UTC タイムスタンプ
- link_id - コメントが関連する投稿の ID
目標:
parent_id - 現在のスレッドの親メッセージの ID
ホームページ: https://github.com/henghuiz/MaskedHierarchicalTransformer
バージョン:
-
2.0.0(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown sizeデータセットのサイズ: サイズ
Unknown size手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir(デフォルトは~/tensorflow_datasets/downloads/manual/) にダウンロードする必要があります。
https://github.com/henghuiz/MaskedHierarchicalTransformer をダウンロードし、raw_data.zip を解凍し、reddit API 資格情報を使用して generate_dataset.py を実行します。次に、出力ディレクトリから train.csv、val.csv、test.csv を manual フォルダーに配置します。自動キャッシュ(ドキュメント): 不明
スプリット:
| スプリット | 例 |
|---|
- 機能構造:
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- 機能のドキュメント:
| 特徴 | クラス | 形 | Dtype | 説明 |
|---|---|---|---|---|
| 特徴辞書 | ||||
| 糸 | 順序 | |||
| スレッド/著者 | 文章 | ストリング | ||
| スレッド/created_utc | 文章 | ストリング | ||
| スレッド/ID | 文章 | ストリング | ||
| スレッド/link_id | 文章 | ストリング | ||
| スレッド/parent_id | 文章 | ストリング | ||
| スレッド/テキスト | 文章 | ストリング |
監視されたキー(
as_superviseddocを参照):None図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ): ありません。
引用:
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}