• 설명 :

비교 말뭉치에서 병렬 문장 식별. 두 개의 문장 분할 단일 언어 코퍼스가 주어지면 참가자 시스템은 서로 번역되는 문장 쌍을 식별할 것으로 예상됩니다.

BUCC 마이닝 작업은 2016년부터 사용 가능한 하위 집합이 병렬로 가정된 두 개의 단일 언어 말뭉치에서 병렬 문장 추출에 대한 공유 작업입니다. 각 언어 쌍에 대해 공유 작업은 각 언어에 대한 단일 언어 말뭉치를 제공하고 진정한 번역 쌍을 포함하는 골드 매핑 목록. 이 쌍은 지상 진실입니다. 작업은 단일 언어 말뭉치에서 번역 쌍 목록을 구성하는 것입니다. 구성된 목록은 ground truth와 비교되고 F1 척도로 평가됩니다.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
source_id 텍스트
source_sentence 텍스트
target_id 텍스트
target_sentence 텍스트
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

buc/bucc_de(기본 구성)

  • 다운로드 크기 : 29.30 MiB

  • 데이터 세트 크기 : 3.21 MiB

  • 분할 :

나뉘다
'test' 9,580
'validation' 1,038

뷰크/뷰크_fr

  • 다운로드 크기 : 21.65 MiB

  • 데이터 세트 크기 : 2.90 MiB

  • 분할 :

나뉘다
'test' 9,086
'validation' 929

버크/버크_zh

  • 다운로드 크기 : 6.79 MiB

  • 데이터 세트 크기 : 615.20 KiB

  • 분할 :

나뉘다
'test' 1,899
'validation' 257

부크/부크_루

  • 다운로드 크기 : 39.44 MiB

  • 데이터 세트 크기 : 6.36 MiB

  • 분할 :

나뉘다
'test' 14,435
'validation' 2,374