নাগরিক_মন্তব্য

  • বর্ণনা :

Civil Comments Dataset-এর এই সংস্করণটি প্রাথমিক সাতটি লেবেলে অ্যাক্সেস প্রদান করে যা ভিড় কর্মীদের দ্বারা টীকা করা হয়েছিল, বিষাক্ততা এবং অন্যান্য ট্যাগগুলি 0 এবং 1 এর মধ্যে একটি মান যা মন্তব্য পাঠে এই বৈশিষ্ট্যগুলি বরাদ্দ করে এমন টীকাকারের ভগ্নাংশ নির্দেশ করে৷

অন্যান্য ট্যাগগুলি শুধুমাত্র ইনপুট উদাহরণগুলির একটি ভগ্নাংশের জন্য উপলব্ধ৷ তারা বর্তমানে প্রধান ডেটাসেটের জন্য উপেক্ষা করা হয়েছে; CivilCommentsIdentities সেট এই লেবেলগুলিকে অন্তর্ভুক্ত করে, কিন্তু শুধুমাত্র তাদের সাথে ডেটার উপসেট নিয়ে গঠিত। অন্যান্য বৈশিষ্ট্যগুলি যেগুলি মূল Civilcomments প্রকাশের অংশ ছিল শুধুমাত্র কাঁচা ডেটাতে অন্তর্ভুক্ত করা হয়েছে৷ উপলব্ধ বৈশিষ্ট্য সম্পর্কে আরো বিস্তারিত জানার জন্য Kaggle ডকুমেন্টেশন দেখুন.

এই ডেটাসেটের মন্তব্যগুলি সিভিল মন্তব্য প্ল্যাটফর্মের একটি সংরক্ষণাগার থেকে এসেছে, স্বাধীন সংবাদ সাইটের জন্য একটি মন্তব্যকারী প্লাগইন। এই সর্বজনীন মন্তব্যগুলি 2015 - 2017 থেকে তৈরি করা হয়েছিল এবং সারা বিশ্ব জুড়ে প্রায় 50টি ইংরেজি ভাষার সংবাদ সাইটে উপস্থিত হয়েছিল৷ 2017 সালে যখন সিভিল কমেন্ট বন্ধ হয়ে যায়, তখন তারা ভবিষ্যৎ গবেষণাকে সক্ষম করার জন্য একটি স্থায়ী ওপেন আর্কাইভে সর্বজনীন মন্তব্যগুলি উপলব্ধ করা বেছে নেয়। ফিগশেয়ারে প্রকাশিত আসল ডেটাতে পাবলিক কমেন্ট টেক্সট, কিছু সম্পর্কিত মেটাডেটা যেমন আর্টিকেল আইডি, প্রকাশনা আইডি, টাইমস্ট্যাম্প এবং মন্তব্যকারীর দ্বারা তৈরি করা "সিভিলিটি" লেবেল অন্তর্ভুক্ত থাকে, কিন্তু ব্যবহারকারী আইডি অন্তর্ভুক্ত করে না। বিষাক্ততা, পরিচয় উল্লেখ, সেইসাথে গোপন আপত্তিকরতার জন্য অতিরিক্ত লেবেল যোগ করে জিগস এই ডেটাসেটটিকে প্রসারিত করেছে। এই ডেটা সেটটি টক্সিসিটি ক্লাসিফিকেশন কাগল চ্যালেঞ্জের জিগসঅ অনিচ্ছাকৃত পক্ষপাতের জন্য প্রকাশিত ডেটার একটি সঠিক প্রতিরূপ। এই ডেটাসেটটি CC0 এর অধীনে প্রকাশিত হয়েছে, যেমনটি অন্তর্নিহিত মন্তব্য পাঠ্য।

নাগরিক মন্তব্যের ডেটাতেও একটি parent_id আছে এমন মন্তব্যের জন্য, পূর্ববর্তী মন্তব্যের পাঠ্য "parent_text" বৈশিষ্ট্য হিসাবে প্রদান করা হয়। মনে রাখবেন যে এই তথ্য বিবেচনা না করেই বিভাজন করা হয়েছিল, তাই পূর্ববর্তী মন্তব্যগুলি ব্যবহার করে কিছু তথ্য ফাঁস হতে পারে। লেবেল তৈরি করার সময় টীকাকারদের মূল পাঠ্যের অ্যাক্সেস ছিল না।

  • হোমপেজ : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • সোর্স কোড : tfds.text.CivilComments

  • সংস্করণ :

    • 1.0.0 : প্রাথমিক পূর্ণ প্রকাশ।
    • 1.0.1 : প্রতিটি মন্তব্যের জন্য একটি অনন্য আইডি যোগ করা হয়েছে।
    • 1.1.0 : Civil CommentCovert কনফিগারেশন যোগ করা হয়েছে।
    • 1.1.1 : সঠিক চেকসাম সহ Civil CommentCovert কনফিগারেশন যোগ করা হয়েছে।
    • 1.1.2 : Civil CommentsCovert ডেটাসেটের জন্য আলাদা উদ্ধৃতি যোগ করা হয়েছে।
    • 1.1.3 : ফ্লোট থেকে স্ট্রিং পর্যন্ত আইডি প্রকার সংশোধন করা হয়েছে।
    • 1.2.0 : বিষাক্ত স্প্যান, প্রসঙ্গ এবং অভিভাবক মন্তব্য পাঠ্য বৈশিষ্ট্য যোগ করুন।
    • 1.2.1 : প্রসঙ্গ বিভাজনে ভুল বিন্যাস ঠিক করুন।
    • 1.2.2 : প্রসঙ্গ প্রতিফলিত করার জন্য আপডেট করুন শুধুমাত্র একটি ট্রেন বিভক্ত।
    • 1.2.3 : আমরা একটি ডেটা সমস্যা সমাধান করার সাথে সাথে Civil CommentsCovert-এ সতর্কতা যোগ করুন।
    • 1.2.4 (ডিফল্ট): প্রকাশনা আইডি এবং মন্তব্য টাইমস্ট্যাম্প যোগ করুন।
  • ডাউনলোড সাইজঃ 427.41 MiB

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

Civil_comments/Civil Comments (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : এখানে সেট করা নাগরিক মন্তব্যগুলি সমস্ত ডেটা অন্তর্ভুক্ত করে, তবে শুধুমাত্র মৌলিক সাতটি লেবেল (বিষাক্ততা, গুরুতর_বিষাক্ততা, অশ্লীল, হুমকি, অপমান, পরিচয়_আক্রমণ, এবং যৌন_স্পষ্ট)।

  • ডেটাসেটের আকার : 1.54 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নিবন্ধ_আইডি টেনসর int32
তৈরীর তারিখ টেনসর স্ট্রিং
আইডি টেনসর স্ট্রিং
পরিচয়_আক্রমণ টেনসর float32
অপমান টেনসর float32
অশ্লীল টেনসর float32
অভিভাবক আইডি টেনসর int32
parent_text পাঠ্য স্ট্রিং
publication_id টেনসর স্ট্রিং
মারাত্মক_বিষাক্ততা টেনসর float32
যৌন_স্পষ্ট টেনসর float32
পাঠ্য পাঠ্য স্ট্রিং
হুমকি টেনসর float32
বিষাক্ততা টেনসর float32
  • উদ্ধৃতি :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

নাগরিক_মন্তব্য/সিভিল মন্তব্য পরিচয়

  • কনফিগারেশনের বিবরণ : এখানে সেট করা Civil CommentsIdentities-এ মৌলিক সাতটি লেবেল ছাড়াও পরিচয় লেবেলের একটি বর্ধিত সেট অন্তর্ভুক্ত রয়েছে। যাইহোক, এটি শুধুমাত্র এই সমস্ত বৈশিষ্ট্য সহ ডেটার উপসেট (প্রায় এক চতুর্থাংশ) অন্তর্ভুক্ত করে।

  • ডেটাসেটের আকার : 654.97 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 21,577
'train' 405,130
'validation' 21,293
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নিবন্ধ_আইডি টেনসর int32
এশিয়ান টেনসর float32
নাস্তিক টেনসর float32
উভকামী টেনসর float32
কালো টেনসর float32
বৌদ্ধ টেনসর float32
খ্রিস্টান টেনসর float32
তৈরীর তারিখ টেনসর স্ট্রিং
মহিলা টেনসর float32
বিষমকামী টেনসর float32
হিন্দু টেনসর float32
সমকামী_সমকামী_বা_লেসবিয়ান টেনসর float32
আইডি টেনসর স্ট্রিং
পরিচয়_আক্রমণ টেনসর float32
অপমান টেনসর float32
বুদ্ধিবৃত্তিক_বা_শিক্ষা_অক্ষমতা টেনসর float32
ইহুদি টেনসর float32
ল্যাটিনো টেনসর float32
পুরুষ টেনসর float32
মুসলিম টেনসর float32
অশ্লীল টেনসর float32
অন্যান্য_অক্ষমতা টেনসর float32
অন্য_লিঙ্গ টেনসর float32
অন্য_জাতি_বা_জাতিগত টেনসর float32
অন্য_ধর্ম টেনসর float32
অন্যান্য_যৌন_অভিমুখী টেনসর float32
অভিভাবক আইডি টেনসর int32
parent_text পাঠ্য স্ট্রিং
শারীরিক_অক্ষমতা টেনসর float32
মানসিক_বা_মানসিক_অসুখ টেনসর float32
publication_id টেনসর স্ট্রিং
মারাত্মক_বিষাক্ততা টেনসর float32
যৌন_স্পষ্ট টেনসর float32
পাঠ্য পাঠ্য স্ট্রিং
হুমকি টেনসর float32
বিষাক্ততা টেনসর float32
ট্রান্সজেন্ডার টেনসর float32
সাদা টেনসর float32
  • উদ্ধৃতি :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/Civil CommentsCovert

  • কনফিগারেশনের বিবরণ : সতর্কতা: CivilCommentsCovert-এর সাথে একটি সম্ভাব্য ডেটা মানের সমস্যা রয়েছে যা আমরা সমাধানের জন্য সক্রিয়ভাবে কাজ করছি (06/28/22); অন্তর্নিহিত তথ্য পরিবর্তন হতে পারে!

CivilCommentsCovert সেট হল CivilcommentsIdentities-এর একটি উপসেট যার ~20% ট্রেন এবং টেস্ট স্প্লিটগুলি বিষাক্ততা এবং পরিচয় লেবেল ছাড়াও গোপন আপত্তিকরতার জন্য আরও টীকা করা হয়েছে। রেটারদের মন্তব্যগুলিকে স্পষ্টভাবে, অন্তর্নিহিতভাবে, না, বা আপত্তিকর কিনা তা নিশ্চিত না, সেইসাথে এতে বিভিন্ন ধরনের গোপন আপত্তিকরতা রয়েছে কিনা তা শ্রেণীবদ্ধ করতে বলা হয়েছিল। সম্পূর্ণ টীকা পদ্ধতিটি https://sites.google.com/corp/view/hciandnlp/accepted-papers- এ একটি আসন্ন কাগজে বিস্তারিত আছে

  • ডেটাসেটের আকার : 97.83 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,455
'train' ৪৮,০৭৪
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নিবন্ধ_আইডি টেনসর int32
এশিয়ান টেনসর float32
নাস্তিক টেনসর float32
উভকামী টেনসর float32
কালো টেনসর float32
বৌদ্ধ টেনসর float32
খ্রিস্টান টেনসর float32
গোপন_ইমোটিকন_ইমোজি টেনসর float32
গোপন_কৌতুক টেনসর float32
গোপন_মাস্কড_ক্ষতি টেনসর float32
গোপন_মাইক্রো আগ্রাসন টেনসর float32
গোপন_অস্পষ্টতা টেনসর float32
গোপন_রাজনৈতিক টেনসর float32
গোপন_ব্যঙ্গ টেনসর float32
তৈরীর তারিখ টেনসর স্ট্রিং
স্পষ্টভাবে_আপত্তিকর টেনসর float32
মহিলা টেনসর float32
বিষমকামী টেনসর float32
হিন্দু টেনসর float32
সমকামী_সমকামী_বা_লেসবিয়ান টেনসর float32
আইডি টেনসর স্ট্রিং
পরিচয়_আক্রমণ টেনসর float32
অন্তর্নিহিত_আপত্তিকর টেনসর float32
অপমান টেনসর float32
বুদ্ধিবৃত্তিক_বা_শিক্ষা_অক্ষমতা টেনসর float32
ইহুদি টেনসর float32
ল্যাটিনো টেনসর float32
পুরুষ টেনসর float32
মুসলিম টেনসর float32
আপত্তিকর নয় টেনসর float32
না_নিশ্চিত_আপত্তিকর টেনসর float32
অশ্লীল টেনসর float32
অন্যান্য_অক্ষমতা টেনসর float32
অন্য_লিঙ্গ টেনসর float32
অন্য_জাতি_বা_জাতিগত টেনসর float32
অন্য_ধর্ম টেনসর float32
অন্যান্য_যৌন_অভিমুখী টেনসর float32
অভিভাবক আইডি টেনসর int32
parent_text পাঠ্য স্ট্রিং
শারীরিক_অক্ষমতা টেনসর float32
মানসিক_বা_মানসিক_অসুখ টেনসর float32
publication_id টেনসর স্ট্রিং
মারাত্মক_বিষাক্ততা টেনসর float32
যৌন_স্পষ্ট টেনসর float32
পাঠ্য পাঠ্য স্ট্রিং
হুমকি টেনসর float32
বিষাক্ততা টেনসর float32
ট্রান্সজেন্ডার টেনসর float32
সাদা টেনসর float32
  • উদ্ধৃতি :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/Civil CommentsToxicSpans

  • কনফিগারেশনের বিবরণ : সিভিলকমেন্টস টক্সিক স্প্যান হল সিভিলকমেন্টের একটি উপসেট যা স্প্যান লেভেলে লেবেল করা হয় - সমস্ত ক্যারেক্টার (ইউনিকোড কোডপয়েন্ট) সীমানাগুলির সূচকগুলি যেগুলি বেশিরভাগ টক্সিক হিসাবে ট্যাগ করা হয়েছিল একটি 'স্প্যান' বৈশিষ্ট্যে ফেরত দেওয়া হয়।

  • ডেটাসেটের আকার : 5.81 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,000
'train' 7,939
'validation' 682
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নিবন্ধ_আইডি টেনসর int32
তৈরীর তারিখ টেনসর স্ট্রিং
আইডি টেনসর স্ট্রিং
অভিভাবক আইডি টেনসর int32
parent_text পাঠ্য স্ট্রিং
publication_id টেনসর স্ট্রিং
স্প্যান টেনসর (কোনটিই নয়,) int32
পাঠ্য পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/Civil CommentsIn Context

  • কনফিগারেশনের বিবরণ : প্রসঙ্গে CivilComments হল Civil Comments এর একটি উপসেট যা লেবেলারদের parent_text উপলব্ধ করে লেবেল করা হয়েছিল। এটি একটি প্রাসঙ্গিক_বিষাক্ততা বৈশিষ্ট্য অন্তর্ভুক্ত করে।

  • ডেটাসেটের আকার : 9.63 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৯,৯৬৯
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নিবন্ধ_আইডি টেনসর int32
প্রাসঙ্গিক_বিষাক্ততা টেনসর float32
তৈরীর তারিখ টেনসর স্ট্রিং
আইডি টেনসর স্ট্রিং
পরিচয়_আক্রমণ টেনসর float32
অপমান টেনসর float32
অশ্লীল টেনসর float32
অভিভাবক আইডি টেনসর int32
parent_text পাঠ্য স্ট্রিং
publication_id টেনসর স্ট্রিং
মারাত্মক_বিষাক্ততা টেনসর float32
যৌন_স্পষ্ট টেনসর float32
পাঠ্য পাঠ্য স্ট্রিং
হুমকি টেনসর float32
বিষাক্ততা টেনসর float32
  • উদ্ধৃতি :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}