reddit_disentanglement

説明:

このデータセットには、reddit からの約 3M のメッセージが含まれています。すべてのメッセージはメタデータでラベル付けされています。タスクは、対応するスレッドで親メッセージの ID を予測することです。各レコードには、1 つのスレッドからのメッセージのリストが含まれています。重複したレコードや壊れたレコードはデータセットから削除されます。

機能は次のとおりです。

id - メッセージ ID
テキスト - メッセージテキスト
作者 - メッセージ作者
created_utc - メッセージの UTC タイムスタンプ
link_id - コメントが関連する投稿の ID

目標：

parent_id - 現在のスレッドの親メッセージの ID
ホームページ: https://github.com/henghuiz/MaskedHierarchicalTransformer
ソースコード: tfds.datasets.reddit_disentanglement.Builder
バージョン:
- 2.0.0 (デフォルト): リリースノートはありません。
ダウンロードサイズ: サイズUnknown size
データセットのサイズ: サイズUnknown size
手動ダウンロードの手順: このデータセットでは、ソースデータを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
https://github.com/henghuiz/MaskedHierarchicalTransformer をダウンロードし、raw_data.zip を解凍し、reddit API 資格情報を使用して generate_dataset.py を実行します。次に、出力ディレクトリから train.csv、val.csv、test.csv を manual フォルダーに配置します。
自動キャッシュ(ドキュメント): 不明
スプリット:

スプリット	例

機能構造:

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
糸	順序
スレッド/著者	文章	ストリング
スレッド/created_utc	文章	ストリング
スレッド/ID	文章	ストリング
スレッド/link_id	文章	ストリング
スレッド/parent_id	文章	ストリング
スレッド/テキスト	文章	ストリング

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ): ありません。
引用：

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

reddit_disentanglement