irc_disentanglement

  • বর্ণনা :

IRC Disentanglement ডেটাসেটে উবুন্টু IRC চ্যানেল থেকে 77,563 টিরও বেশি বার্তা রয়েছে।

বৈশিষ্ট্য বার্তা আইডি, বার্তা পাঠ্য এবং টাইমস্ট্যাম্প অন্তর্ভুক্ত. টার্গেট হল সেই বার্তাগুলির তালিকা যা বর্তমান বার্তাটি উত্তর দেয়৷ প্রতিটি রেকর্ডে IRC চ্যাটের একদিনের বার্তাগুলির একটি তালিকা রয়েছে।

বিভক্ত উদাহরণ
'test' 10
'train' 153
'validation' 10
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
   
'day': Sequence({
       
'id': Text(shape=(), dtype=string),
       
'parents': Sequence(Text(shape=(), dtype=string)),
       
'text': Text(shape=(), dtype=string),
       
'timestamp': Text(shape=(), dtype=string),
   
}),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
দিন ক্রম
দিন/আইডি পাঠ্য স্ট্রিং
দিন/বাবা-মা ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং
দিন/পাঠ্য পাঠ্য স্ট্রিং
দিন/টাইমস্ট্যাম্প পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@InProceedings{acl19disentangle,
  author    
= {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title    
= {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle
= {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  
= {Florence, Italy},
  month    
= {July},
  year      
= {2019},
  doi      
= {10.18653/v1/P19-1374},
  pages    
= {3846--3856},
  url      
= {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv    
= {https://arxiv.org/abs/1810.11118},
  software  
= {https://jkk.name/irc-disentanglement},
  data      
= {https://jkk.name/irc-disentanglement},
}