irc_disentanglement

Mô tả :

Tập dữ liệu IRC Disentanglement chứa hơn 77.563 thông báo từ kênh IRC của Ubuntu.

Các tính năng bao gồm id tin nhắn, văn bản tin nhắn và dấu thời gian. Mục tiêu là danh sách các tin nhắn mà tin nhắn hiện tại trả lời. Mỗi bản ghi chứa một danh sách các tin nhắn từ một ngày trò chuyện IRC.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://jkk.name/irc-disentanglement
Mã nguồn : tfds.datasets.irc_disentanglement.Builder
Phiên bản :
- 2.0.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : 113.53 MiB
Kích thước tập dữ liệu : 26.59 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'test'`	10
`'train'`	153
`'validation'`	10

Cấu trúc tính năng :

FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
ngày	Sự phối hợp
ngày/mã	Chữ		sợi dây
ngày/bố mẹ	Trình tự (Văn bản)	(Không có,)	sợi dây
ngày/văn bản	Chữ		sợi dây
ngày/dấu thời gian	Chữ		sợi dây

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}