Civil_comments

  • คำอธิบาย :

ชุดข้อมูล CivilComments เวอร์ชันนี้ให้การเข้าถึงป้ายกำกับหลัก 7 ป้ายที่มีคำอธิบายประกอบโดยกลุ่มคนทำงาน ความเป็นพิษและแท็กอื่นๆ มีค่าระหว่าง 0 ถึง 1 ซึ่งบ่งชี้ถึงส่วนของคำอธิบายประกอบที่กำหนดแอตทริบิวต์เหล่านี้ให้กับข้อความแสดงความคิดเห็น

แท็กอื่นๆ มีให้ใช้งานเพียงเศษเสี้ยวของตัวอย่างอินพุตเท่านั้น ขณะนี้พวกเขาถูกละเว้นสำหรับชุดข้อมูลหลัก ชุด CivilCommentsIdentities มีป้ายกำกับเหล่านั้น แต่ประกอบด้วยชุดย่อยของข้อมูลเท่านั้น คุณลักษณะอื่นๆ ที่เป็นส่วนหนึ่งของการเผยแพร่ CivilComments ดั้งเดิมจะรวมอยู่ในข้อมูลดิบเท่านั้น ดูเอกสารประกอบของ Kaggle สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับคุณลักษณะที่มีอยู่

ความคิดเห็นในชุดข้อมูลนี้มาจากไฟล์เก็บถาวรของแพลตฟอร์ม Civil Comments ซึ่งเป็นปลั๊กอินแสดงความคิดเห็นสำหรับเว็บไซต์ข่าวอิสระ ความคิดเห็นสาธารณะเหล่านี้จัดทำขึ้นตั้งแต่ปี 2558 - 2560 และปรากฏในเว็บไซต์ข่าวภาษาอังกฤษประมาณ 50 แห่งทั่วโลก เมื่อความคิดเห็นสาธารณะถูกปิดตัวลงในปี 2560 พวกเขาเลือกที่จะเผยแพร่ความคิดเห็นสาธารณะในคลังข้อมูลแบบเปิดที่ใช้งานได้ยาวนานเพื่อการวิจัยในอนาคต ข้อมูลต้นฉบับที่เผยแพร่บน figshare รวมถึงข้อความความคิดเห็นสาธารณะ ข้อมูลเมตาที่เกี่ยวข้องบางส่วน เช่น ID บทความ ID สิ่งพิมพ์ การประทับเวลา และป้ายกำกับ "พลเมือง" ที่ผู้แสดงความคิดเห็นสร้างขึ้น แต่ไม่รวม ID ผู้ใช้ จิ๊กซอว์ขยายชุดข้อมูลนี้โดยเพิ่มป้ายกำกับเพิ่มเติมสำหรับความเป็นพิษ การกล่าวถึงตัวตน ตลอดจนความไม่พอใจที่แอบแฝง ชุดข้อมูลนี้เป็นแบบจำลองที่แน่นอนของข้อมูลที่เผยแพร่สำหรับความท้าทาย Jigsaw Unintended Bias in Toxicity Classification Kaggle ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความแสดงความคิดเห็น

สำหรับความคิดเห็นที่มี parent_id ในข้อมูลความคิดเห็นสาธารณะ ข้อความของความคิดเห็นก่อนหน้าจะถูกจัดเตรียมเป็นคุณลักษณะ "parent_text" โปรดทราบว่าการแยกส่วนเกิดขึ้นโดยไม่คำนึงถึงข้อมูลนี้ ดังนั้นการใช้ความคิดเห็นก่อนหน้านี้อาจทำให้ข้อมูลบางส่วนรั่วไหลได้ คำอธิบายประกอบไม่มีสิทธิ์เข้าถึงข้อความหลักเมื่อสร้างป้ายกำกับ

  • หน้าแรก : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • รหัสที่มา : tfds.text.CivilComments

  • รุ่น :

    • 1.0.0 : เปิดตัวเต็มครั้งแรก
    • 1.0.1 : เพิ่มรหัสเฉพาะสำหรับแต่ละความคิดเห็น
    • 1.1.0 : เพิ่มการกำหนดค่า CivilCommentsCovert
    • 1.1.1 : เพิ่มการกำหนดค่า CivilCommentsCovert พร้อมเช็คซัมที่ถูกต้อง
    • 1.1.2 : เพิ่มการอ้างอิงแยกต่างหากสำหรับชุดข้อมูล CivilCommentsCovert
    • 1.1.3 : แก้ไขประเภทรหัสจากทศนิยมเป็นสตริง
    • 1.2.0 : เพิ่มคุณสมบัติระยะเวลาที่ไม่เหมาะสม บริบท และข้อความความคิดเห็นหลัก
    • 1.2.1 : แก้ไขการจัดรูปแบบที่ไม่ถูกต้องในการแยกบริบท
    • 1.2.2 : อัปเดตเพื่อสะท้อนถึงบริบทที่มีการแยกขบวนเท่านั้น
    • 1.2.3 : เพิ่มคำเตือนใน CivilCommentsCovert ขณะที่เราแก้ไขปัญหาข้อมูล
    • 1.2.4 (ค่าเริ่มต้น): เพิ่มรหัสสิ่งพิมพ์และการประทับเวลาความคิดเห็น
  • ขนาดการดาวน์โหลด : 427.41 MiB

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

Civil_comments/CivilComments (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : CivilComments ที่ตั้งค่าไว้ที่นี่ประกอบด้วยข้อมูลทั้งหมด แต่มีเพียงเจ็ดป้ายกำกับพื้นฐานเท่านั้น (ความเป็นพิษ, ความเป็นพิษรุนแรง, อนาจาร, การคุกคาม, การดูหมิ่น, การโจมตีด้วยตัวตน และทางเพศที่โจ่งแจ้ง)

  • ขนาดชุดข้อมูล : 1.54 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
article_id เทนเซอร์ int32
วันที่สร้าง เทนเซอร์ สตริง
รหัส เทนเซอร์ สตริง
identity_attack เทนเซอร์ ลอย32
สบประมาท เทนเซอร์ ลอย32
ลามก เทนเซอร์ ลอย32
parent_id เทนเซอร์ int32
parent_text ข้อความ สตริง
สิ่งพิมพ์_id เทนเซอร์ สตริง
รุนแรง_เป็นพิษ เทนเซอร์ ลอย32
ทางเพศ_explicit เทนเซอร์ ลอย32
ข้อความ ข้อความ สตริง
ภัยคุกคาม เทนเซอร์ ลอย32
ความเป็นพิษ เทนเซอร์ ลอย32
  • การอ้างอิง :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

  • คำอธิบายการกำหนดค่า : ชุด CivilCommentsIdentities ที่นี่ประกอบด้วยชุดเพิ่มเติมของป้ายกำกับข้อมูลประจำตัวนอกเหนือจากป้ายกำกับพื้นฐาน 7 รายการ อย่างไรก็ตาม จะรวมเฉพาะส่วนย่อย (ประมาณหนึ่งในสี่) ของข้อมูลที่มีคุณสมบัติทั้งหมดเหล่านี้

  • ขนาดชุดข้อมูล : 654.97 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 21,577
'train' 405,130
'validation' 21,293
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
article_id เทนเซอร์ int32
เอเชีย เทนเซอร์ ลอย32
ผู้ที่ไม่เชื่อในพระเจ้า เทนเซอร์ ลอย32
กะเทย เทนเซอร์ ลอย32
สีดำ เทนเซอร์ ลอย32
ชาวพุทธ เทนเซอร์ ลอย32
คริสเตียน เทนเซอร์ ลอย32
วันที่สร้าง เทนเซอร์ สตริง
หญิง เทนเซอร์ ลอย32
รักต่างเพศ เทนเซอร์ ลอย32
ฮินดู เทนเซอร์ ลอย32
รักร่วมเพศ_เกย์_หรือ_เลสเบี้ยน เทนเซอร์ ลอย32
รหัส เทนเซอร์ สตริง
identity_attack เทนเซอร์ ลอย32
สบประมาท เทนเซอร์ ลอย32
ความพิการทางสติปัญญาหรือการเรียนรู้ เทนเซอร์ ลอย32
ชาวยิว เทนเซอร์ ลอย32
ละติน เทนเซอร์ ลอย32
ชาย เทนเซอร์ ลอย32
มุสลิม เทนเซอร์ ลอย32
ลามก เทนเซอร์ ลอย32
other_disability เทนเซอร์ ลอย32
other_gender เทนเซอร์ ลอย32
other_race_or_ethnicity เทนเซอร์ ลอย32
other_religion เทนเซอร์ ลอย32
other_sexual_orientation เทนเซอร์ ลอย32
parent_id เทนเซอร์ int32
parent_text ข้อความ สตริง
ความพิการทางร่างกาย เทนเซอร์ ลอย32
จิตเวช_หรือ_จิต_เจ็บป่วย เทนเซอร์ ลอย32
สิ่งพิมพ์_id เทนเซอร์ สตริง
รุนแรง_เป็นพิษ เทนเซอร์ ลอย32
ทางเพศ_explicit เทนเซอร์ ลอย32
ข้อความ ข้อความ สตริง
ภัยคุกคาม เทนเซอร์ ลอย32
ความเป็นพิษ เทนเซอร์ ลอย32
คนข้ามเพศ เทนเซอร์ ลอย32
สีขาว เทนเซอร์ ลอย32
  • การอ้างอิง :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsCovert

  • คำอธิบายการกำหนดค่า : คำเตือน: มีปัญหาด้านคุณภาพของข้อมูลที่อาจเกิดขึ้นกับ CivilCommentsCovert ซึ่งเรากำลังแก้ไขอยู่ (06/28/22) ข้อมูลพื้นฐานอาจเปลี่ยนแปลงได้!

ชุด CivilCommentsCovert เป็นส่วนย่อยของ CivilCommentsIdentities ที่มีประมาณ 20% ของรถไฟและการทดสอบแยกที่มีคำอธิบายประกอบเพิ่มเติมสำหรับความไม่พอใจที่แอบแฝง นอกเหนือจากความเป็นพิษและป้ายระบุตัวตน ผู้ประเมินถูกขอให้จัดหมวดหมู่ความคิดเห็นว่าเป็นหนึ่งในความคิดเห็นที่ไม่เหมาะสม โดยชัดแจ้ง โดยปริยาย ไม่ใช่ หรือไม่แน่ใจว่าเป็นการล่วงละเมิดหรือไม่ รวมทั้งพิจารณาว่ามีการแสดงความไม่พอใจแบบแอบแฝงประเภทต่างๆ หรือไม่ ขั้นตอนการใส่คำอธิบายประกอบฉบับเต็มมีรายละเอียดในบทความที่กำลังจะมีขึ้นที่ https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • ขนาดชุดข้อมูล : 97.83 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 2,455
'train' 48,074
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
article_id เทนเซอร์ int32
เอเชีย เทนเซอร์ ลอย32
ผู้ที่ไม่เชื่อในพระเจ้า เทนเซอร์ ลอย32
กะเทย เทนเซอร์ ลอย32
สีดำ เทนเซอร์ ลอย32
ชาวพุทธ เทนเซอร์ ลอย32
คริสเตียน เทนเซอร์ ลอย32
covert_emoticons_emojis เทนเซอร์ ลอย32
covert_humor เทนเซอร์ ลอย32
covert_masked_harm เทนเซอร์ ลอย32
covert_microaggression เทนเซอร์ ลอย32
covert_obfuscation เทนเซอร์ ลอย32
แอบแฝง_การเมือง เทนเซอร์ ลอย32
covert_sarcasm เทนเซอร์ ลอย32
วันที่สร้าง เทนเซอร์ สตริง
explicitly_offensive เทนเซอร์ ลอย32
หญิง เทนเซอร์ ลอย32
รักต่างเพศ เทนเซอร์ ลอย32
ฮินดู เทนเซอร์ ลอย32
รักร่วมเพศ_เกย์_หรือ_เลสเบี้ยน เทนเซอร์ ลอย32
รหัส เทนเซอร์ สตริง
identity_attack เทนเซอร์ ลอย32
implicitly_offensive เทนเซอร์ ลอย32
สบประมาท เทนเซอร์ ลอย32
ความพิการทางสติปัญญาหรือการเรียนรู้ เทนเซอร์ ลอย32
ชาวยิว เทนเซอร์ ลอย32
ละติน เทนเซอร์ ลอย32
ชาย เทนเซอร์ ลอย32
มุสลิม เทนเซอร์ ลอย32
not_offensive เทนเซอร์ ลอย32
not_sure_offensive เทนเซอร์ ลอย32
ลามก เทนเซอร์ ลอย32
other_disability เทนเซอร์ ลอย32
other_gender เทนเซอร์ ลอย32
other_race_or_ethnicity เทนเซอร์ ลอย32
other_religion เทนเซอร์ ลอย32
other_sexual_orientation เทนเซอร์ ลอย32
parent_id เทนเซอร์ int32
parent_text ข้อความ สตริง
ความพิการทางร่างกาย เทนเซอร์ ลอย32
จิตเวช_หรือ_จิต_เจ็บป่วย เทนเซอร์ ลอย32
สิ่งพิมพ์_id เทนเซอร์ สตริง
รุนแรง_เป็นพิษ เทนเซอร์ ลอย32
ทางเพศ_explicit เทนเซอร์ ลอย32
ข้อความ ข้อความ สตริง
ภัยคุกคาม เทนเซอร์ ลอย32
ความเป็นพิษ เทนเซอร์ ลอย32
คนข้ามเพศ เทนเซอร์ ลอย32
สีขาว เทนเซอร์ ลอย32
  • การอ้างอิง :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • คำอธิบายการกำหนดค่า : CivilComments Toxic Spans เป็นส่วนย่อยของ CivilComments ที่ติดป้ายกำกับไว้ที่ระดับสแปน ดัชนีของขอบเขตอักขระทั้งหมด (unicode codepoints) ที่ถูกแท็กว่าเป็นพิษโดยตัวอธิบายประกอบส่วนใหญ่จะถูกส่งกลับในคุณลักษณะ 'spans'

  • ขนาดชุดข้อมูล : 5.81 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 7,939
'validation' 682
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
article_id เทนเซอร์ int32
วันที่สร้าง เทนเซอร์ สตริง
รหัส เทนเซอร์ สตริง
parent_id เทนเซอร์ int32
parent_text ข้อความ สตริง
สิ่งพิมพ์_id เทนเซอร์ สตริง
ช่วง เทนเซอร์ (ไม่มี,) int32
ข้อความ ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • คำอธิบายการกำหนดค่า : CivilComments ในบริบทเป็นชุดย่อยของ CivilComments ที่ถูกติดป้ายกำกับโดยการทำให้ parent_text พร้อมใช้งานสำหรับผู้ติดป้ายกำกับ ซึ่งรวมถึงคุณสมบัติบริบทความเป็นพิษ

  • ขนาดชุดข้อมูล : 9.63 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 9,969
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
article_id เทนเซอร์ int32
บริบท_ความเป็นพิษ เทนเซอร์ ลอย32
วันที่สร้าง เทนเซอร์ สตริง
รหัส เทนเซอร์ สตริง
identity_attack เทนเซอร์ ลอย32
สบประมาท เทนเซอร์ ลอย32
ลามก เทนเซอร์ ลอย32
parent_id เทนเซอร์ int32
parent_text ข้อความ สตริง
สิ่งพิมพ์_id เทนเซอร์ สตริง
รุนแรง_เป็นพิษ เทนเซอร์ ลอย32
ทางเพศ_explicit เทนเซอร์ ลอย32
ข้อความ ข้อความ สตริง
ภัยคุกคาม เทนเซอร์ ลอย32
ความเป็นพิษ เทนเซอร์ ลอย32
  • การอ้างอิง :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}