ダーツ

説明:

DART (DAta Record to Text generation) には、トリプルセット内のすべての事実をカバーする文の説明で注釈が付けられた RDF エンティティ関係が含まれています。 DART は、WikiTableQuestions、WikiSQL、WebNLG、Cleaned E2E などの既存のデータセットを使用して構築されました。 WikiTableQuestions と WikiSQL のテーブルは主語-述語-目的語のトリプルに変換され、そのテキスト注釈は主に MTurk から収集されました。 E2E の意味のある表現もトリプルに変換され、その記述が使用されました。変換できなかったものは削除されました。

E2E と WebNLG のデータセット分割は維持され、WikiTableQuestions と WikiSQL では Jaccard 類似性を使用して同じセット (train/dev/tes) に類似のテーブルを維持します。

このデータセットは、標準化されたテーブル形式に従って構築されています。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/Yale-LILY/dart
ソースコード: tfds.structured.dart.Dart
バージョン:
- 0.1.0 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 249.71 MiB
データセットのサイズ: 38.83 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'test'`	12,552
`'train'`	62,659
`'validation'`	6,980

機能構造:

FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
入力テキスト	特徴辞書
入力テキスト/テーブル	順序
input_text/table/column_header	テンソル	ストリング
入力テキスト/テーブル/コンテンツ	テンソル	ストリング
入力テキスト/テーブル/行番号	テンソル	int16
target_text	テンソル	ストリング

監視されたキー( as_supervised docを参照): ('input_text', 'target_text')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}

ダーツ コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ダーツ