Universal_Dependencies

  • 설명 :

UD(Universal Dependencies)는 서로 다른 인간 언어에서 일관된 문법 주석(품사, 형태적 특징 및 구문 종속성)을 위한 프레임워크입니다. UD는 100개 이상의 언어로 200개 이상의 트리뱅크를 제작하는 300명 이상의 기여자들과 함께 하는 개방형 커뮤니티 노력입니다. UD를 처음 사용하는 경우 짧은 소개의 첫 번째 부분을 읽은 다음 주석 지침을 검색하는 것으로 시작해야 합니다.

FeaturesDict({
    'deprel': Sequence(Text(shape=(), dtype=string)),
    'deps': Sequence(Text(shape=(), dtype=string)),
    'feats': Sequence(Text(shape=(), dtype=string)),
    'head': Sequence(Text(shape=(), dtype=string)),
    'idx': Text(shape=(), dtype=string),
    'lemmas': Sequence(Text(shape=(), dtype=string)),
    'misc': Sequence(Text(shape=(), dtype=string)),
    'text': Text(shape=(), dtype=string),
    'tokens': Sequence(Text(shape=(), dtype=string)),
    'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
    'xpos': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
낙심하다 시퀀스(텍스트) (없음,)
뎁스 시퀀스(텍스트) (없음,)
위업 시퀀스(텍스트) (없음,)
머리 시퀀스(텍스트) (없음,)
아이디엑스 텍스트
기본형 시퀀스(텍스트) (없음,)
기타 시퀀스(텍스트) (없음,)
텍스트 텍스트
토큰 시퀀스(텍스트) (없음,)
우포스 시퀀스(클래스 레이블) (없음,) int64
xpos 시퀀스(텍스트) (없음,)
@misc{11234/1-4758,
 title = {Universal Dependencies 2.10},
 author = {Zeman, Daniel and Nivre, Joakim and Abrams, Mitchell and Ackermann,  Elia and Aepli, No{"e}mi and Aghaei, Hamid and Agi{'c}, {v Z}eljko and  Ahmadi, Amir and Ahrenberg, Lars and Ajede, Chika Kennedy and  Aleksandravi{v c}i{=u}te, Gabriele and Alfina, Ika and Algom, Avner  and Andersen, Erik and Antonsen, Lene and Aplonova, Katya and Aquino,  Angelina and Aragon, Carolina and Aranes, Glyd and Aranzabe, Maria Jesus and  Arican, Bilge Nas and Arnard{'o}ttir, {     H}{'o}runn and Arutie, Gashaw  and Arwidarasti, Jessica Naraiswari and Asahara, Masayuki and Aslan, Deniz  Baran and Asmazoglu, Cengiz and Ateyah, Luma and Atmaca, Furkan and  Attia, Mohammed and Atutxa, Aitziber and Augustinus, Liesbeth and Badmaeva,  Elena and Balasubramani, Keerthana and Ballesteros, Miguel and Banerjee,  Esha and Bank, Sebastian and Barbu Mititelu, Verginica and Barkarson,  Starkaður and Basile, Rodolfo and Basmov, Victoria and Batchelor, Colin and  Bauer, John and Bedir, Seyyit Talha and Bengoetxea, Kepa and Ben Moshe, Yifat  and Berk, G{"o}zde and Berzak, Yevgeni and Bhat, Irshad Ahmad and Bhat,  Riyaz Ahmad and Biagetti, Erica and Bick, Eckhard and Bielinskiene,  Agne and Bjarnad{'o}ttir, Krist{'i}n and Blokland, Rogier and  Bobicev, Victoria and Boizou, Lo{"i}c and Borges V{"o}lker, Emanuel  and B{"o}rstell, Carl and Bosco, Cristina and Bouma, Gosse and Bowman, Sam  and Boyd, Adriane and Braggaar, Anouck and Brokaite, Kristina and  Burchardt, Aljoscha and Candito, Marie and Caron, Bernard and Caron, Gauthier  and Cassidy, Lauren and Cavalcanti, Tatiana and Cebiroglu Eryigit,  G{"u}l{s}en and Cecchini, Flavio Massimiliano and Celano, Giuseppe G. A.  and {C}{'e}pl{"o}, Slavom{'i}r and Cesur, Neslihan and Cetin, Savas  and {C}etinoglu, {"O}zlem and Chalub, Fabricio and Chauhan, Shweta  and Chi, Ethan and Chika, Taishi and Cho, Yongseok and Choi, Jinho and Chun,  Jayeol and Chung, Juyeon and Cignarella, Alessandra T. and Cinkov{'a},  Silvie and Collomb, Aur{'e}lie and {C}{"o}ltekin, {C}a{g}ri and  Connor, Miriam and Corbetta, Daniela and Courtin, Marine and Cristescu,  Mihaela and Daniel, Philemon and Davidson, Elizabeth and Dehouck, Mathieu  and de Laurentiis, Martina and de Marneffe, Marie-Catherine and de Paiva,  Valeria and Derin, Mehmet Oguz and de Souza, Elvis and Diaz de Ilarraza,  Arantza and Dickerson, Carly and Dinakaramani, Arawinda and Di Nuovo, Elisa  and Dione, Bamba and Dirix, Peter and Dobrovoljc, Kaja and Dozat, Timothy and  Droganova, Kira and Dwivedi, Puneet and Eckhoff, Hanne and Eiche, Sandra and  Eli, Marhaba and Elkahky, Ali and Ephrem, Binyam and Erina, Olga and Erjavec,  Toma{v z} and Etienne, Aline and Evelyn, Wograine and Facundes, Sidney and  Farkas, Rich{'a}rd and Favero, Federica and Ferdaousi, Jannatul and  Fernanda, Mar{'i}lia and Fernandez Alcalde, Hector and Foster, Jennifer  and Freitas, Cl{'a}udia and Fujita, Kazunori and Gajdo{v s}ov{'a},  Katar{'i}na and Galbraith, Daniel and Gamba, Federica and Garcia, Marcos  and G{"a}rdenfors, Moa and Garza, Sebastian and Gerardi, Fabr{'i}cio  Ferraz and Gerdes, Kim and Ginter, Filip and Godoy, Gustavo and Goenaga,  Iakes and Gojenola, Koldo and G{"o}kirmak, Memduh and Goldberg, Yoav and  G{'o}mez Guinovart, Xavier and Gonz{'a}lez Saavedra, Berta and  Griciute, Bernadeta and Grioni, Matias and Grobol, Lo{"i}c and  Gruzitis, Normunds and Guillaume, Bruno and Guillot-Barbance,  C{'e}line and G{"u}ng{"o}r, Tunga and Habash, Nizar and Hafsteinsson,  Hinrik and Hajic, Jan and Hajic jr., Jan and  H{"a}m{"a}l{"a}inen, Mika and Ha My, Linh and Han, Na-Rae and  Hanifmuti, Muhammad Yudistira and Harada, Takahiro and Hardwick, Sam and  Harris, Kim and Haug, Dag and Heinecke, Johannes and Hellwig, Oliver and  Hennig, Felix and Hladk{'a}, Barbora and Hlav{'a}{v c}ov{'a}, Jaroslava  and Hociung, Florinel and Hohle, Petter and Hwang, Jena and Ikeda, Takumi  and Ingason, Anton Karl and Ion, Radu and Irimia, Elena and Ishola,  {O}l{'a}j{'i}d{'e} and Ito, Kaoru and Jannat, Siratun and  Jel{'i}nek, Tom{'a}{v s} and Jha, Apoorva and Johannsen, Anders and  J{'o}nsd{'o}ttir, Hildur and Jorgensen, Fredrik and Juutinen, Markus  and K, Sarveswaran and Ka{c s}ikara, H{"u}ner and Kaasen, Andre and  Kabaeva, Nadezhda and Kahane, Sylvain and Kanayama, Hiroshi and Kanerva,  Jenna and Kara, Neslihan and Karah{'o}ǧa, Ritv{'a}n and Katz, Boris and  Kayadelen, Tolga and Kenney, Jessica and Kettnerov{'a}, V{'a}clava and  Kirchner, Jesse and Klementieva, Elena and Klyachko, Elena and K{"o}hn,  Arne and K{"o}ksal, Abdullatif and Kopacewicz, Kamil and Korkiakangas, Timo  and K{"o}se, Mehmet and Kotsyba, Natalia and Kovalevskaite, Jolanta and  Krek, Simon and Krishnamurthy, Parameswari and K{"u}bler, Sandra and  Kuyruk{c c}u, O{g}uzhan and Kuzgun, Asli and Kwak, Sookyoung and  Laippala, Veronika and Lam, Lucia and Lambertino, Lorenzo and Lando, Tatiana  and Larasati, Septina Dian and Lavrentiev, Alexei and Lee, John and Le  H{o}ng, Phương and Lenci, Alessandro and Lertpradit, Saran and Leung,  Herman and Levina, Maria and Li, Cheuk Ying and Li, Josie and Li, Keying and  Li, Yuan and Lim, {KyungTae} and Lima Padovani, Bruna and Lind{'e}n, Krister  and Ljube{s}i{'c}, Nikola and Loginova, Olga and Lusito, Stefano and  Luthfi, Andry and Luukko, Mikko and Lyashevskaya, Olga and Lynn, Teresa and  Macketanz, Vivien and Mahamdi, Menel and Maillard, Jean and Makazhanov, Aibek  and Mandl, Michael and Manning, Christopher and Manurung, Ruli and  Mar{s}an, B{"u}{s}ra and M{a}r{a}nduc, C{a}t{a}lina and  Mare{c}ek, David and Marheinecke, Katrin and Markantonatou, Stella and  Mart{'i}nez Alonso, H{'e}ctor and Mart{'i}n Rodr{'i}guez, Lorena  and Martins, Andr{'e} and Ma{s}ek, Jan and Matsuda, Hiroshi and  Matsumoto, Yuji and Mazzei, Alessandro and {McDonald}, Ryan and {McGuinness},  Sarah and Mendon{c}a, Gustavo and Merzhevich, Tatiana and Miekka, Niko and  Mischenkova, Karina and Misirpashayeva, Margarita and Missil{"a}, Anna and  Mititelu, C{a}t{a}lin and Mitrofan, Maria and Miyao, Yusuke and Mojiri  Foroushani, {AmirHossein} and Moln{'a}r, Judit and Moloodi, Amirsaeid and  Montemagni, Simonetta and More, Amir and Moreno Romero, Laura and Moretti,  Giovanni and Mori, Keiko Sophie and Mori, Shinsuke and Morioka, Tomohiko and  Moro, Shigeki and Mortensen, Bjartur and Moskalevskyi, Bohdan and Muischnek,  Kadri and Munro, Robert and Murawaki, Yugo and M{"u}{"u}risep, Kaili and  Nainwani, Pinkey and Nakhl{'e}, Mariam and Navarro Horniacek, Juan  Ignacio and Nedoluzhko, Anna and Ne{v s}pore-Berzkalne, Gunta and  Nevaci, Manuela and Nguy{e}n Th{i}, Lương and Nguy{e}n  Th{i} Minh, Huy{e}n and Nikaido, Yoshihiro and Nikolaev, Vitaly  and Nitisaroj, Rattima and Nourian, Alireza and Nurmi, Hanna and Ojala,  Stina and Ojha, Atul Kr. and Ol{'u}{'o}kun, Ad{e}day{o}̀ and Omura,  Mai and Onwuegbuzia, Emeka and Ordan, Noam and Osenova, Petya and  {"O}stling, Robert and {O}vrelid, Lilja and {"O}zate{s},  {S}aziye Bet{"u}l and {"O}z{c}elik, Merve and {"O}zg{"u}r,  Arzucan and {"O}zt{"u}rk Ba{s}aran, Balkiz and Paccosi, Teresa  and Palmero Aprosio, Alessio and Park, Hyunji Hayley and Partanen, Niko  and Pascual, Elena and Passarotti, Marco and Patejuk, Agnieszka and  Paulino-Passos, Guilherme and Pedonese, Giulia and Peljak-{L}api{n}ska,  Angelika and Peng, Siyao and Perez, Cenel-Augusto and Perkova, Natalia and  Perrier, Guy and Petrov, Slav and Petrova, Daria and Peverelli, Andrea and  Phelan, Jason and Piitulainen, Jussi and Pirinen, Tommi A and Pitler, Emily  and Plank, Barbara and Poibeau, Thierry and Ponomareva, Larisa and Popel,  Martin and Pretkalni{n}a, Lauma and Pr{'e}vost, Sophie and Prokopidis,  Prokopis and Przepi{o}rkowski, Adam and Puolakainen, Tiina and Pyysalo,  Sampo and Qi, Peng and R{"a}{"a}bis, Andriela and Rademaker, Alexandre and  Rahoman, Mizanur and Rama, Taraka and Ramasamy, Loganathan and Ramisch,  Carlos and Rashel, Fam and Rasooli, Mohammad Sadegh and Ravishankar, Vinit  and Real, Livy and Rebeja, Petru and Reddy, Siva and Regnault, Mathilde and  Rehm, Georg and Riabov, Ivan and Rie{ss}ler, Michael and Rimkut{e}, Erika  and Rinaldi, Larissa and Rituma, Laura and Rizqiyah, Putri and Rocha, Luisa  and R{"o}gnvaldsson, Eir{'i}kur and Romanenko, Mykhailo and Rosa, Rudolf  and Roșca, Valentin and Rovati, Davide and Rozonoyer, Ben and Rudina, Olga  and Rueter, Jack and R{'u}narsson, Kristj{'a}n and Sadde, Shoval and  Safari, Pegah and Sagot, Beno{i}t and Sahala, Aleksi and Saleh, Shadi  and Salomoni, Alessio and Samard{v z}i{'c}, Tanja and Samson, Stephanie and  Sanguinetti, Manuela and Saniyar, Ezgi and S{"a}rg, Dage and  Saulite, Baiba and Sawanakunanon, Yanin and Saxena, Shefali and  Scannell, Kevin and Scarlata, Salvatore and Schneider, Nathan and Schuster,  Sebastian and Schwartz, Lane and Seddah, Djam{'e} and Seeker, Wolfgang and  Seraji, Mojgan and Shahzadi, Syeda and Shen, Mo and Shimada, Atsuko and  Shirasu, Hiroyuki and Shishkina, Yana and Shohibussirri, Muh and Sichinava,  Dmitry and Siewert, Janine and Sigurðsson, Einar Freyr and Silveira, Aline  and Silveira, Natalia and Simi, Maria and Simionescu, Radu and Simk{'o},  Katalin and {S}imkov{'a}, M{'a}ria and Simov, Kiril and Skachedubova,  Maria and Smith, Aaron and Soares-Bastos, Isabela and Sourov, Shafi and  Spadine, Carolyn and Sprugnoli, Rachele and Stamou, Vivian and  Steingr{'i}msson, Stein{h}{'o}r and Stella, Antonio and Straka,  Milan and Strickland, Emmett and Strnadov{'a}, Jana and Suhr, Alane and  Sulestio, Yogi Lesmana and Sulubacak, Umut and Suzuki, Shingo and Swanson,  Daniel and Sz{'a}nt{'o}, Zsolt and Taguchi, Chihiro and Taji, Dima and  Takahashi, Yuta and Tamburini, Fabio and Tan, Mary Ann C. and Tanaka, Takaaki  and Tanaya, Dipta and Tavoni, Mirko and Tella, Samson and Tellier, Isabelle  and Testori, Marinella and Thomas, Guillaume and Tonelli, Sara and Torga,  Liisi and Toska, Marsida and Trosterud, Trond and Trukhina, Anna and  Tsarfaty, Reut and T{"u}rk, Utku and Tyers, Francis and Uematsu, Sumire  and Untilov, Roman and Ure{v s}ov{'a}, Zde{n}ka and Uria, Larraitz and  Uszkoreit, Hans and Utka, Andrius and Vagnoni, Elena and Vajjala, Sowmya and  van der Goot, Rob and Vanhove, Martine and van Niekerk, Daniel and van Noord,  Gertjan and Varga, Viktor and Vedenina, Uliana and Villemonte de la  Clergerie, Eric and Vincze, Veronika and Vlasova, Natalia and Wakasa,  Aya and Wallenberg, Joel C. and Wallin, Lars and Walsh, Abigail and Wang,  Jing Xian and Washington, Jonathan North and Wendt, Maximilan and Widmer,  Paul and Wigderson, Shira and Wijono, Sri Hartati and Williams, Seyi and  Wir{'e}n, Mats and Wittern, Christian and Woldemariam, Tsegay and Wong,  Tak-sum and Wr{'o}blewska, Alina and Yako, Mary and Yamashita, Kayo and  Yamazaki, Naoki and Yan, Chunxiao and Yasuoka, Koichi and Yavrumyan, Marat M.  and Yenice, Arife Bet{"u}l and Yildiz, Olcay Taner and Yu, Zhuoran and  Yuliawati, Arlisa and {Z}abokrtsk{'y}, Zden{v e}k and Zahra, Shorouq and  Zeldes, Amir and Zhou, He and Zhu, Hanzhi and Zhuravleva, Anna and Ziane,  Rayan
 },
 url = {http://hdl.handle.net/11234/1-4758},
 note = { {LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal  and Applied Linguistics ({ {'U}FAL}), Faculty of Mathematics and Physics,  Charles University},
 copyright = {Licence Universal Dependencies v2.10},
 year = {2022}
}

universal_dependencies/af_afribooms(기본 구성)

  • 구성 설명 : UD Afrikaans-AfriBooms는 원래 Stanford 태그 세트의 하위 집합에 따라 단순화된 PoS 세트 및 종속성 관계로 주석이 달린 AfriBooms 종속성 트리뱅크의 변환입니다. 코퍼스는 공공 정부 문서로 구성됩니다. 데이터 세트는 Augustinus et al.의 'AfriBooms: An Online Treebank for Afrikaans'에서 제안되었습니다. (2016); https://www.aclweb.org/anthology/L16-1107.pdf

  • 다운로드 크기 : 2.95 MiB

  • 데이터 세트 크기 : 4.02 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 194
'test' 425
'train' 1,315

universal_dependencies/akk_pisandub

  • 구성 설명 : 바빌로니아 왕실 비문의 작은 문장 세트입니다.

  • 다운로드 크기 : 99.41 KiB

  • 데이터 세트 크기 : 126.32 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 101

universal_dependencies/akk_riao

  • 구성 설명 : UD_Akkadian-RIAO는 22,277개의 단어와 1,845개의 문장으로 구성된 작은 트리뱅크입니다. 이것은 기원전 10세기와 9세기의 초기 신아시리아 왕실 비문에서 온 총 2211개 문장의 온전한 하위 집합을 나타냅니다. 이 왕실 비문은 Oracc(Open Richly Annotated Cuneiform Corpus; http://oracc.museum.upenn.edu/riao/ )에서 추출되었으며, 여기에서 모든 Neo-Assyrian 왕실 비문은 단어별로 표제어로 정리됩니다. 말뭉치의 언어는 때때로 아시리아어가 포함된 표준 바빌로니아어인 반면 "아카드어"는 아시리아어와 바빌로니아어를 모두 포괄하는 용어입니다. treebank는 UD 주석 지침에 따라 수동으로 주석을 달았습니다.

  • 다운로드 크기 : 1.87 MiB

  • 데이터 세트 크기 : 2.79 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,874

universal_dependencies/aqz_tudet

  • 구성 설명 : UD_Akuntsu-TuDeT는 Akuntsú의 주석이 달린 텍스트 모음입니다. UD_Tupinamba-TuDeT 및 UD_Munduruku-TuDeT와 함께 UD_Akuntsu-TuDeT는 TuLaR 프로젝트의 일부입니다. 이 문장은 Carolina Aragon과 Fabrício Ferraz Gerardi가 주석을 달고 있습니다.

  • 다운로드 크기 : 67.25 KiB

  • 데이터 세트 크기 : 97.39 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 243

universal_dependencies/sq_tsa

  • 구성 설명 : 표준 알바니아어용 UD 트리뱅크(TSA)는 922개의 토큰에 해당하는 60개의 문장으로 구성된 작은 트리뱅크입니다. 데이터는 다양한 Wikipedia 항목에서 수집되었습니다. 이 트리뱅크는 주로 Universal Dependencies 지침에 따라 수동으로 생성되었습니다. 원형 복원은 Albanian National Corpus 팀(Maria Morozova, Alexander Rusakov, Timofey Arkhangelskiy)이 개발한 원형 복원기 https://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/ 를 사용하여 수행되었습니다. 태깅과 형태학적 분석은 파이썬 스크립트를 통해 반자동화되어 수동으로 수정되었으며, 종속 관계는 완전히 수동으로 할당되었습니다. 우리는 Treebank의 크기를 늘리거나 전반적인 품질을 개선하기 위한 모든 이니셔티브를 권장합니다.

  • 다운로드 크기 : 62.00 KiB

  • 데이터 세트 크기 : 93.65 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 60

universal_dependencies/am_att

  • 구성 설명 : UD_Amharic-ATT는 수동으로 주석이 달린 Treebanks입니다. POS 태그, 형태 정보 및 종속 관계에 대한 주석이 추가됩니다. 암하라어는 형태학적으로 풍부하고 클리틱 2배의 특징을 가진 언어이기 때문에 클리틱스를 수동으로 세분화했습니다.

  • 다운로드 크기 : 995.32 KiB

  • 데이터 세트 크기 : 1.33 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,074

universal_dependencies/grc_perseus

  • 구성 설명 : 이 Universal Dependencies 고대 그리스 트리뱅크는 고대 그리스어 및 라틴어 종속성 트리뱅크 2.1에서 선택한 구절을 자동으로 변환하여 구성됩니다.

  • 다운로드 크기 : 18.02 MiB

  • 데이터 세트 크기 : 24.52 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,137
'test' 1,306
'train' 11,476

universal_dependencies/grc_proiel

  • 구성 설명 : 고대 그리스 PROIEL 트리뱅크는 오슬로 대학의 철학, 고전, 예술사 및 사상학과에서 관리하는 PROIEL 트리뱅크의 고대 그리스 데이터를 기반으로 합니다. 변환은 https://github.com/proiel/proiel-treebank/releases 에서 제공되는 PROIEL treebank의 20180408 릴리스를 기반으로 합니다. 원본 주석자는 여기에서 제공되는 파일에서 확인할 수 있습니다. 변환 코드는 Rubygem proiel-cli, https://github.com/proiel/proiel-cli 에서 사용할 수 있습니다.

  • 다운로드 크기 : 22.62 MiB

  • 데이터 세트 크기 : 30.92 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,019
'test' 1,047
'train' 15,014

universal_dependencies/apu_ufpa

  • 구성 설명 : 초기 릴리스에는 주석이 달린 70개의 문장이 포함되어 있습니다. 이것은 Arawak 어족의 언어로 된 최초의 나무더미입니다. 원본 행간 글로스가 트리 뱅크에 포함되어 있으며 전체 UD 주석으로 변환하는 작업이 진행 중입니다. sent_id 값(예: FernandaM2017:Texto-6-19)은 수집가, 발행 연도, 텍스트 식별자 및 원문 순서의 문장 번호를 나타냅니다.

  • 다운로드 크기 : 95.51 KiB

  • 데이터 세트 크기 : 98.49 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 115

universal_dependencies/hbo_ptnk

  • 구성 설명 : UD 고대 히브리어 PTNK에는 ETCBC의 형태학적 주석이 있는 Biblia Hebraic Stuttgartensia의 일부가 포함되어 있습니다.

  • 다운로드 크기 : 3.11 MiB

  • 데이터 세트 크기 : 4.28 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 439
'test' 410
'train' 730

universal_dependencies/ar_nyuad

  • 구성 설명 : 트리뱅크는 19,738개의 문장(738889개의 토큰)으로 구성되어 있으며, 그 도메인은 주로 뉴스와이어입니다. 주석은 CC BY-SA 4.0의 조건에 따라 라이선스가 부여되며 원본 PATB는 LDC의 공식 웹사이트에서 얻을 수 있습니다.

  • 다운로드 크기 : 55.87 MiB

  • 데이터 세트 크기 : 78.33 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,986
'test' 1,963
'train' 15,789

universal_dependencies/ar_padt

  • 구성 설명 : Arabic-PADT UD 트리뱅크는 프라하의 찰스 대학에서 만든 PADT(Prague Arabic Dependency Treebank)를 기반으로 합니다.

  • 다운로드 크기 : 48.84 MiB

  • 데이터 세트 크기 : 64.42 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 909
'test' 680
'train' 6,075

universal_dependencies/ar_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 1.98 MiB

  • 데이터 세트 크기 : 2.34 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/aii_as

  • 구성 설명 : Uppsala Assyrian Treebank는 Modern Standard Assyrian을 위한 작은 나무더미입니다. 코퍼스는 수동으로 수집되고 주석이 추가됩니다. 데이터는 다양한 교과서와 The Merchant of Venice의 짧은 번역본에서 무작위로 수집되었습니다.

  • 다운로드 크기 : 31.99 KiB

  • 데이터 세트 크기 : 48.85 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 57

universal_dependencies/bm_crb

  • 구성 설명 : UD Bambara treebank는 기본적으로 Universal Dependencies로 주석이 달린 Corpus Référence du Bambara의 섹션입니다.

  • 다운로드 크기 : 873.37 KiB

  • 데이터 세트 크기 : 1.25 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,026

universal_dependencies/eu_bdt

  • 구성 설명 : Basque UD 트리뱅크는 IXA NLP 연구 그룹이 바스크 지방 대학에서 생성한 BDT(Basque Dependency Treebank)의 일부에서 자동 변환을 기반으로 합니다. 트리뱅크는 8.993 문장(121.443 토큰)으로 구성되며 주로 문학 및 저널리즘 텍스트를 다룹니다.

  • 다운로드 크기 : 7.83 MiB

  • 데이터 세트 크기 : 11.74 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,798
'test' 1,799
'train' 5,396

universal_dependencies/bej_nsc

  • 구성 설명 : 주로 수단, 이집트 및 에리트레아에서 사용되는 아프리카-아시아 문(目)의 북쿠시어 분파인 베자(Beja)에 대한 보편적 종속 말뭉치.

  • 다운로드 크기 : 136.52 KiB

  • 데이터 세트 크기 : 168.15 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 56

universal_dependencies/be_hse

  • 구성 설명 : Belarusian UD treebank는 Russian National Corpus의 Belarusian-Russian parallel subcorpus에 포함된 뉴스 텍스트의 샘플을 기반으로 합니다. 온라인 검색은 http://ruscorpora.ru/search-para-be.html 에서 사용할 수 있습니다.

  • 다운로드 크기 : 30.04 MiB

  • 데이터 세트 크기 : 39.88 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,301
'test' 1,077
'train' 22,853

universal_dependencies/bn_bru

  • 구성 설명 : The BRU Bengali treebank는 Semantics Lab의 구성원이 Rangpur의 Begum Rokeya University에서 만들었습니다.

  • 다운로드 크기 : 38.41 KiB

  • 데이터 세트 크기 : 51.42 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 56

universal_dependencies/bho_bhtb

  • 구성 설명 : The Bhojpuri UD Treebank (BHTB) v2.6은 6,664개의 토큰(357 문장)으로 구성됩니다. 이 Treebank는 Universal Dependency treebank 프로젝트의 일부입니다. 처음에는 뉴델리의 Jawaharlal Nehru University에서 박사 과정 연구 중에 저(Atul)가 시작했습니다. BHTB 데이터는 종속 구성 스키마에 따른 구문 주석과 형태학적 태그 및 기본형을 포함합니다. 이 데이터에서 XPOS는 BIS(Bureau of Indian Standards) POS(Part Of Speech) 태그 세트에 따라 주석이 추가됩니다.

  • 다운로드 크기 : 599.76 KiB

  • 데이터 세트 크기 : 817.23 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 357

universal_dependencies/br_keb

  • 구성 설명 : UD Breton-KEB는 Universal Dependencies 지침에 따라 수동으로 주석을 추가한 Breton의 트리뱅크입니다. 토큰화 지침 및 형태학적 주석은 Apertium 프로젝트의 일부로 출시된 Breton의 유한 상태 형태학적 분석기에서 가져옵니다.

  • 다운로드 크기 : 663.63 KiB

  • 데이터 세트 크기 : 863.36 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 888

universal_dependencies/bg_btb

  • 구성 설명 : UD_Bulgarian-BTB는 불가리아 과학 아카데미 정보 통신 기술 연구소에서 만든 HPSG 기반 BulTreeBank를 기반으로 합니다. 원본은 215,000개의 토큰(15,000문장 이상)으로 구성되어 있습니다.

  • 다운로드 크기 : 14.22 MiB

  • 데이터 세트 크기 : 20.01 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,115
'test' 1,116
'train' 8,907

universal_dependencies/bxr_bdt

  • 구성 설명 : UD Buryat treebank는 기본적으로 UD에서 수동으로 주석을 달았으며 문법 책 문장과 뉴스 및 소설을 포함합니다.

  • 다운로드 크기 : 710.23 KiB

  • 데이터 세트 크기 : 1018.12 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 908
'train' 19

universal_dependencies/yue_hk

  • 구성 설명 : 중국어-홍콩 트리뱅크와 병행하여 영화 자막 및 홍콩 입법 절차의 광동 트리뱅크(중국어 번체 문자).

  • 다운로드 크기 : 693.38 KiB

  • 데이터 세트 크기 : 1.04 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,004

universal_dependencies/ca_ancora

  • 구성 설명 : AnCora 말뭉치의 카탈루냐어 데이터입니다.

  • 다운로드 크기 : 48.14 MiB

  • 데이터 세트 크기 : 64.03 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,709
'test' 1,846
'train' 13,123

universal_dependencies/ceb_gja

  • 구성 설명 : UD_Cebuano_GJA는 웹사이트 Tatoeba의 커뮤니티 제공 샘플, Bunye & Yap(1971)의 세부아노어 문법 책 및 세부아노에 대한 Tanangkinsing의 참조 문법(2011)의 세 가지 다른 소스에서 임의로 가져온 주석이 달린 세부아노어 샘플 문장의 모음입니다. 이 프로젝트는 현재 진행 중입니다.

  • 다운로드 크기 : 99.30 KiB

  • 데이터 세트 크기 : 136.74 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 188

universal_dependencies/zh_cfl

  • 구성 설명 : Chinese-CFL UD 트리뱅크는 북경어 학습자가 외국어로 작성한 에세이를 기반으로 홍콩 시립 대학의 Herman Leung과 John Lee가 약간의 수동 수정을 통해 Keying Li가 수동으로 주석을 추가합니다. 데이터는 중국어 간체입니다.

  • 다운로드 크기 : 375.71 KiB

  • 데이터 세트 크기 : 558.45 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 451

universal_dependencies/zh_gsd

  • 구성 설명 : Google에서 주석을 추가하고 변환한 중국어 번체 범용 종속성 Treebank.

  • 다운로드 크기 : 6.48 MiB

  • 데이터 세트 크기 : 8.88 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 500
'test' 500
'train' 3,997

universal_dependencies/zh_gsdsimp

  • 구성 설명 : GSD(전통) 데이터 세트에서 수동 수정으로 변환된 중국어 간체 범용 종속성 데이터 세트입니다.

  • 다운로드 크기 : 6.48 MiB

  • 데이터 세트 크기 : 8.88 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 500
'test' 500
'train' 3,997

universal_dependencies/zh_hk

  • 구성 설명 : 영화 자막 및 홍콩 입법 절차의 중국어 번체 트리뱅크, Cantonese-HK treebank와 유사합니다.

  • 다운로드 크기 : 482.85 KiB

  • 데이터 세트 크기 : 779.66 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,004

universal_dependencies/zh_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 1.53 MiB

  • 데이터 세트 크기 : 1.95 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/ckt_hse

  • 구성 설명 : 이 데이터는 Chukchi의 Amguema 변종의 방언 말뭉치인 Chuklang 프로젝트의 멀티미디어 주석 말뭉치에서 가져온 말뭉치의 수동 주석입니다.

  • 다운로드 크기 : 793.16 KiB

  • 데이터 세트 크기 : 828.50 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,004

universal_dependencies/lzh_kyoto

  • 구성 설명 : 교토 대학 인문학 연구소에서 주석을 추가하고 변환한 고전 중국어 범용 종속성 Treebank.

  • 다운로드 크기 : 26.86 MiB

  • 데이터 세트 크기 : 39.40 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 5,687
'test' 4,932
'train' 48,569

universal_dependencies/cop_scriptorium

  • 구성 설명 : UD Coptic에는 성경 텍스트, 설교, 서신 및 성인전을 포함하여 수동으로 주석이 달린 Sahidic Coptic 텍스트가 포함되어 있습니다.

  • 다운로드 크기 : 4.73 MiB

  • 데이터 세트 크기 : 6.12 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 381
'test' 403
'train' 1,227

universal_dependencies/hr_set

  • 구성 설명 : 크로아티아어 UD 트리뱅크는 SETimes-HR 코퍼스인 hr500k 코퍼스의 확장을 기반으로 합니다.

  • 다운로드 크기 : 14.41 MiB

  • 데이터 세트 크기 : 20.43 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 960
'test' 1,136
'train' 6,914

universal_dependencies/cs_cac

  • 구성 설명 : UD_Czech-CAC 트리뱅크는 프라하의 Charles University에서 만든 Czech Academic Corpus 2.0(CAC; Český akademický korpus; ČAK)을 기반으로 합니다.

  • 다운로드 크기 : 53.72 MiB

  • 데이터 세트 크기 : 73.74 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 603
'test' 628
'train' 23,478

universal_dependencies/cs_cltt

  • 구성 설명 : UD_Czech-CLTT 트리뱅크는 프라하의 Charles University에서 생성된 Czech Legal Text Treebank 1.0을 기반으로 합니다.

  • 다운로드 크기 : 3.57 MiB

  • 데이터 세트 크기 : 4.73 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 129
'test' 136
'train' 860

universal_dependencies/cs_fictree

  • 구성 설명 : FicTree는 체코 소설의 트리뱅크이며 자동으로 UD 형식으로 변환됩니다. 트리뱅크는 프라하의 Charles University에 지어졌습니다.

  • 다운로드 크기 : 16.65 MiB

  • 데이터 세트 크기 : 23.29 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,309
'test' 1,291
'train' 10,160

universal_dependencies/cs_pdt

  • 구성 설명 : Czech-PDT UD 트리뱅크는 프라하의 찰스 대학에서 만든 PDT(Prague Dependency Treebank 3.0)를 기반으로 합니다.

  • 다운로드 크기 : 164.29 MiB

  • 데이터 세트 크기 : 224.30 MiB

  • 자동 캐싱 ( 문서 ): 예(개발, 테스트), shuffle_files=False 인 경우에만(훈련)

  • 분할 :

나뉘다
'dev' 9,270
'test' 10,148
'train' 68,495

universal_dependencies/cs_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 2.14 MiB

  • 데이터 세트 크기 : 2.76 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/da_ddt

  • 구성 설명 : 덴마크 UD 트리뱅크는 덴마크 종속성 트리뱅크의 변환입니다.

  • 다운로드 크기 : 6.13 MiB

  • 데이터 세트 크기 : 9.15 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 564
'test' 565
'train' 4,383

universal_dependencies/nl_alpino

  • 구성 설명 : 이 말뭉치는 Alpino 주석 도구 및 지침을 사용하여 Groningen 대학에서 주석이 달린 다양한 트리뱅크의 샘플로 구성됩니다.

  • 다운로드 크기 : 15.98 MiB

  • 데이터 세트 크기 : 21.03 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 718
'test' 596
'train' 12,289

universal_dependencies/nl_lassysmall

  • 구성 설명 : 이 말뭉치에는 Lassy Small Treebank의 Wikipedia 섹션에 있는 문장이 포함되어 있습니다. Universal Dependency 주석은 Lassy의 원래 주석에서 자동으로 생성되었습니다.

  • 다운로드 크기 : 7.61 MiB

  • 데이터 세트 크기 : 9.86 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 676
'test' 876
'train' 5,789

universal_dependencies/en_esl

  • 구성 설명 : UD English-ESL / TLE(Treebank of Learner English)에는 Cambridge Learner Corpus First Certificate in English(FCE) 데이터 세트에서 가져온 5,124개의 ESL(English as a Second Language) 문장에 대한 수동 POS 태그 및 종속성 주석이 포함되어 있습니다.

  • 다운로드 크기 : 3.20 MiB

  • 데이터 세트 크기 : 4.72 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 500
'test' 500
'train' 4,124

universal_dependencies/en_ewt

  • 구성 설명 : English Web Treebank LDC2012T13( https://catalog.ldc.upenn.edu/LDC2012T13 )의 소스 자료 위에 구축된 영어용 Gold Standard Universal Dependencies Corpus입니다.

  • 다운로드 크기 : 16.37 MiB

  • 데이터 세트 크기 : 23.60 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 2,001
'test' 2,077
'train' 12,543

universal_dependencies/en_gum

나뉘다
'dev' 1,117
'test' 1,096
'train' 6,917

universal_dependencies/en_gumreddit

  • 구성 설명 : GUM 코퍼스( https://corpling.uis.georgetown.edu/gum/ )의 Reddit 부분에서 가져온 범용 종속성 구문 주석

  • 다운로드 크기 : 1.47 MiB

  • 데이터 세트 크기 : 2.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 104
'test' 105
'train' 686

universal_dependencies/en_lines

  • 구성 설명 : UD English_LinES는 처음에 자동으로 범용 종속성으로 변환된 다음 부분적으로 검토된 원래 종속성 주석이 있는 LinES 병렬 트리뱅크의 영어 절반입니다. 그 내용은 문헌, 온라인 설명서 및 Europarl 데이터를 다룹니다.

  • 다운로드 크기 : 5.27 MiB

  • 데이터 세트 크기 : 7.54 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,032
'test' 1,035
'train' 3,176

universal_dependencies/en_atis

  • 구성 설명 : UD Atis Treebank는 자동 조회 시스템에서 항공편 정보를 요청하는 사람들의 음성 필사본을 포함하는 Atis(항공 여행 정보) 데이터 세트의 문장으로 구성된 수동으로 주석이 달린 트리뱅크입니다.

  • 다운로드 크기 : 3.06 MiB

  • 데이터 세트 크기 : 4.76 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 572
'test' 586
'train' 4,274

universal_dependencies/en_partut

  • 구성 설명 : UD_English-ParTUT는 토리노 대학에서 개발한 다국어 병렬 트리뱅크의 변환이며 대화, 법률 텍스트 및 Wikipedia 기사를 포함한 다양한 텍스트 장르로 구성됩니다.

  • 다운로드 크기 : 2.59 MiB

  • 데이터 세트 크기 : 3.65 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 156
'test' 153
'train' 1,781

universal_dependencies/en_pronouns

  • 구성 설명 : UD English-Pronouns는 대명사 식별을 보다 정확하고 성별에 따라 보다 균형 잡힌 분포를 위해 생성된 데이터 세트입니다. 데이터 세트는 처음에 독립적 소유격 대명사 'hers', (독립적) 'his', (단수형) 'theirs', 'mine' 및 (단수형) 'yours'를 대상으로 합니다.

  • 다운로드 크기 : 138.08 KiB

  • 데이터 세트 크기 : 186.09 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 285

universal_dependencies/en_pud

  • 구성 설명 : 원시 텍스트에서 범용 종속성으로의 다국어 구문 분석에 대한 CoNLL 2017 공유 작업( http://universaldependencies.org/conll17/ )을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 영어 부분입니다.

  • 다운로드 크기 : 1.28 MiB

  • 데이터 세트 크기 : 1.82 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/myv_jr

  • 구성 설명 : UD Erzya는 Erzya 언어로 된 텍스트에 대한 원래 주석(CoNLL-U)이며 원래 Erzya로 원본을 작성하는 여러 소설 작가의 샘플로 구성됩니다.

  • 다운로드 크기 : 1.88 MiB

  • 데이터 세트 크기 : 2.47 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,714

universal_dependencies/et_edt

  • 구성 설명 : UD Estonian은 원래 CG(Constraint Grammar) 주석 체계에 주석이 달린 Estonian Dependency Treebank(EDT)의 변환된 버전이며 소설, 신문 텍스트 및 과학 텍스트의 장르로 구성됩니다. 트리뱅크에는 30,972개의 나무, 437,769개의 토큰이 있습니다.

  • 다운로드 크기 : 31.09 MiB

  • 데이터 세트 크기 : 45.98 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 3,127
'test' 3,214
'train' 24,632

universal_dependencies/et_ewt

  • 구성 설명 : UD EWT treebank는 다양한 장르의 뉴미디어로 구성됩니다. 트리뱅크에는 4,493개의 나무, 56,399개의 토큰이 있습니다.

  • 다운로드 크기 : 5.35 MiB

  • 데이터 세트 크기 : 8.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 833
'test' 913
'train' 4,579

universal_dependencies/fo_farpahc

  • 구성 설명 : UD_Icelandic-FarPaHC는 FarPaHC(Faroese Parsed Historical Corpus)를 범용 종속성 체계로 변환한 것입니다. 변환은 UDConverter를 사용하여 수행되었습니다.

  • 다운로드 크기 : 2.09 MiB

  • 데이터 세트 크기 : 2.84 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 300
'test' 301
'train' 1,020

universal_dependencies/fo_oft

  • 구성 설명 : Faroese Wikipedia를 기반으로 한 Faroese의 트리뱅크입니다.

  • 다운로드 크기 : 783.86 KiB

  • 데이터 세트 크기 : 1.07 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,208

universal_dependencies/fi_ftb

  • 구성 설명 : FinnTreeBank 1은 VISK에서 수동으로 주석을 단 문법 예제로 구성됩니다. FinnTreeBank 1의 UD 버전은 스크립트가 있는 기본 주석 모델에서 변환되었으며 나중에 수동으로 수정되었습니다.

  • 다운로드 크기 : 12.52 MiB

  • 데이터 세트 크기 : 18.45 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,875
'test' 1,867
'train' 14,981

universal_dependencies/fi_ood

  • 구성 설명 : Finnish-OOD는 기본적으로 UD 체계에 주석이 추가된 Finnish-TDT용 외부 도메인 외부 테스트 세트입니다.

  • 다운로드 크기 : 1.40 MiB

  • 데이터 세트 크기 : 2.11 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 2,122

universal_dependencies/fi_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 1.34 MiB

  • 데이터 세트 크기 : 1.80 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/fi_tdt

  • 구성 설명 : UD_Finnish-TDT는 다양한 장르를 포괄하는 일반 핀란드어의 광범위한 종속성 트리뱅크인 TDT(Turku Dependency Treebank)를 기반으로 합니다. UD로 변환한 후 광범위한 수동 확인 및 수정이 이루어졌으며 트리뱅크는 UD 지침을 면밀히 준수합니다.

  • 다운로드 크기 : 15.84 MiB

  • 데이터 세트 크기 : 23.17 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,364
'test' 1,555
'train' 12,217

universal_dependencies/fr_fqb

  • 구성 설명 : 말뭉치 UD_French-FQB 는 전적으로 질문으로 구성된 말뭉치인 French QuestionBank v1의 자동 변환입니다.

  • 다운로드 크기 : 1.47 MiB

  • 데이터 세트 크기 : 2.32 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 2,289

universal_dependencies/fr_ftb

  • 구성 설명 : French Treebank의 Universal Dependency 버전(Abeillé et al., 2003)(이하 UD_French-FTB)은 Le Monde 신문의 문장 트리뱅크로 처음에는 형태 정보 및 구문 구조로 수동 주석을 추가한 다음 다음으로 변환했습니다. Universal Dependencies 주석 체계.

  • 다운로드 크기 : 29.49 MiB

  • 데이터 세트 크기 : 44.93 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,235
'test' 2,541
'train' 14,759

universal_dependencies/fr_gsd

  • 구성 설명 : UD_French-GSD 는 2015년 범용 종속 트리뱅크 v2.0( https://github.com/ryanmcd/uni-dep-tb )의 콘텐츠 헤드 버전에서 변환되었습니다. 이전 소스와 독립적으로 2015년부터 업데이트되었습니다.

  • 다운로드 크기 : 24.38 MiB

  • 데이터 세트 크기 : 35.77 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,476
'test' 416
'train' 14,449

universal_dependencies/fr_partut

  • 구성 설명 : UD_French-ParTUT는 토리노 대학에서 개발한 다국어 병렬 트리뱅크의 변환이며 대화, 법률 텍스트 및 Wikipedia 기사를 포함한 다양한 텍스트 장르로 구성됩니다.

  • 다운로드 크기 : 1.74 MiB

  • 데이터 세트 크기 : 2.44 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 107
'test' 110
'train' 803

universal_dependencies/fr_rhapsodie

  • 구성 설명 : 프랑스어 구사를 위한 Universal Dependencies 말뭉치.

  • 다운로드 크기 : 3.00 MiB

  • 데이터 세트 크기 : 4.10 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,082
'test' 840
'train' 1,288

universal_dependencies/fr_parisstories

  • 구성 설명 : Paris Stories는 2017년에서 2021년 사이에 Sorbonne Nouvelle의 언어학 학생들이 수집 및 필사하고 Plurital Master's Degree of Computational Linguistics(Inalco, Paris Nanterre, Sorbonne Nouvelle) 학생들이 수정한 구두 프랑스어 코퍼스입니다. 파리 지역에 거주하는 연사들의 대화.

  • 다운로드 크기 : 1.97 MiB

  • 데이터 세트 크기 : 2.70 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 547
'train' 1,216

universal_dependencies/fr_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 1.71 MiB

  • 데이터 세트 크기 : 2.24 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/fr_sequoia

  • 구성 설명 : UD_French-Sequoia는 Sequoia Treebank 말뭉치 French Sequoia 말뭉치의 자동 변환입니다.

  • 다운로드 크기 : 4.21 MiB

  • 데이터 세트 크기 : 6.18 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 412
'test' 456
'train' 2,231

universal_dependencies/gl_ctg

  • 구성 설명 : Galician UD treebank는 TALG NLP 연구 그룹이 University of Vigo에서 만든 Galician Technical Corpus( http://sli.uvigo.gal/CTG )의 자동 구문 분석을 기반으로 합니다.

  • 다운로드 크기 : 7.85 MiB

  • 데이터 세트 크기 : 10.81 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 860
'test' 861
'train' 2,272

universal_dependencies/gl_treegal

  • 구성 설명 : The Galician-TreeGal은 LyS Group(Universidade da Coruña)에서 개발한 갈리시아어용 트리뱅크입니다.

  • 다운로드 크기 : 1.66 MiB

  • 데이터 세트 크기 : 2.35 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 400
'train' 600

universal_dependencies/de_gsd

  • 구성 설명 : 독일어 UD는 범용 종속 트리뱅크 v2.0(레거시)의 콘텐츠 헤드 버전에서 변환됩니다.

  • 다운로드 크기 : 20.69 MiB

  • 데이터 세트 크기 : 29.60 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 799
'test' 977
'train' 13,814

universal_dependencies/de_hdt

  • 구성 설명 : UD German-HDT는 함부르크 대학에서 수동 주석을 통해 생성된 함부르크 종속성 트리뱅크의 변환으로 형태론적 및 구문적으로 문장에 주석을 추가하기 위한 표준과 제약 조건 기반 파서와 함께 사용됩니다.

  • 다운로드 크기 : 242.97 MiB

  • 데이터 세트 크기 : 347.93 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 18,434
'test' 18,459
'train' 153,035

universal_dependencies/de_lit

  • 구성 설명 : 이 트리뱅크는 독일 문학사의 텍스트 수집을 목표로 합니다. 현재 초기 낭만주의의 파편, 즉 주로 예술, 아름다움 및 관련 주제에 관한 철학적 문제를 다루는 격언과 유사한 텍스트를 호스팅합니다.

  • 다운로드 크기 : 1.97 MiB

  • 데이터 세트 크기 : 2.49 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,922

universal_dependencies/de_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 1.65 MiB

  • 데이터 세트 크기 : 2.20 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/got_proiel

  • 구성 설명 : UD 고딕 트리뱅크는 PROIEL 트리뱅크의 고딕 데이터를 기반으로 하며 Wulfila의 성경 번역으로 구성됩니다.

  • 다운로드 크기 : 4.98 MiB

  • 데이터 세트 크기 : 7.17 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 985
'test' 1,029
'train' 3,387

universal_dependencies/el_gdt

  • 구성 설명 : 그리스 UD 트리뱅크( UD_Greek -GDT)는 언어 및 음성 처리 연구소/Athena RC( http://www.ilsp.gr ).

  • 다운로드 크기 : 5.52 MiB

  • 데이터 세트 크기 : 7.49 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 403
'test' 456
'train' 1,662

universal_dependencies/gub_tudet

  • 구성 설명 : UD_Guajajara-TuDeT는 Guajajara에서 주석이 달린 문장 모음입니다. 문장은 언어에 대한 설명, 짧은 이야기, 사전, 신약성서의 번역과 같은 여러 소스에서 유래합니다. Lorena Martín Rodríguez 및 Fabrício Ferraz Gerardi의 문장 주석 및 문서화.

  • 다운로드 크기 : 683.38 KiB

  • 데이터 세트 크기 : 738.09 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,126

universal_dependencies/gn_oldtudet

  • 구성 설명 : UD_Guarani-OldTuDeT는 Old Guaraní의 주석이 달린 텍스트 모음입니다. 카테시즘, 문법(17~18세기), 사전의 문장, 기타 텍스트 등 이 언어로 알려진 모든 출처에 주석이 달려 있습니다. Fabrício Ferraz Gerardi와 Lorena Martín Rodríguez의 문장 주석 및 문서화.

  • 다운로드 크기 : 18.93 KiB

  • 데이터 세트 크기 : 24.71 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 59

universal_dependencies/he_htb

  • 구성 설명 : 히브리어에 대한 범용 종속성 코퍼스.

  • 다운로드 크기 : 11.64 MiB

  • 데이터 세트 크기 : 16.10 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 484
'test' 491
'train' 5,241

universal_dependencies/he_iahltwiki

  • 구성 설명 : 공개적으로 사용 가능한 IAHLT UD 히브리 트리뱅크의 Wikipedia 섹션( https://www.iahlt.org/ ) 하위 집합

  • 다운로드 크기 : 10.30 MiB

  • 데이터 세트 크기 : 14.16 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 348
'test' 393
'train' 4,298

universal_dependencies/qfn_fame

  • 구성 설명 : UD_Frisian_Dutch-Fame은 FAME에서 엄선한 400개의 문장입니다! Yilmaz 등의 음성 코퍼스. (2016a, 2016b). treebank는 UD 체계를 사용하여 수동으로 주석을 답니다.

  • 다운로드 크기 : 232.57 KiB

  • 데이터 세트 크기 : 290.88 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 400

universal_dependencies/qhe_hiencs

  • 구성 설명 : 힌디어-영어 코드 전환 트리뱅크는 Twitter에서 힌디어 및 영어 다국어 사용자(주로 인도인)의 코드 전환 트윗을 기반으로 합니다. treebank는 UD sceheme을 사용하여 수동으로 주석을 답니다. 교육 및 평가 세트는 각각 UD v2 및 v1 지침을 사용하여 서로 다른 주석에 의해 별도로 주석이 달렸습니다. 평가 세트는 UD v1에서 v2로 자동 변환됩니다.

  • 다운로드 크기 : 893.15 KiB

  • 데이터 세트 크기 : 1.53 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 225
'test' 225
'train' 1,448

universal_dependencies/hi_hdtb

  • 구성 설명 : Hindi UD 트리뱅크는 인도 IIIT Hyderabad에서 생성된 HDTB(Hindi Dependency Treebank)를 기반으로 합니다.

  • 다운로드 크기 : 49.18 MiB

  • 데이터 세트 크기 : 68.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,659
'test' 1,684
'train' 13,304

universal_dependencies/hi_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 2.20 MiB

  • 데이터 세트 크기 : 2.82 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/hu_szeged

  • 구성 설명 : 헝가리 UD treebank는 Szeged Dependency Treebank에서 파생되었습니다(Vincze et al. 2010).

  • 다운로드 크기 : 2.92 MiB

  • 데이터 세트 크기 : 4.20 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 441
'test' 449
'train' 910

universal_dependencies/is_modern

  • 구성 설명 : UD_Icelandic-Modern은 IcePaHC(Icelandic Parsed Historical Corpus)에 대한 최신 추가 사항을 Universal Dependencies 체계로 변환한 것입니다.

  • 다운로드 크기 : 9.02 MiB

  • 데이터 세트 크기 : 12.32 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 784
'test' 768
'train' 5,376

universal_dependencies/is_icepahc

  • 구성 설명 : UD_Icelandic-IcePaHC는 IcePaHC(Icelandic Parsed Historical Corpus)를 Universal Dependencies 체계로 변환한 것입니다. 변환은 UDConverter를 사용하여 수행되었습니다.

  • 다운로드 크기 : 81.16 MiB

  • 데이터 세트 크기 : 112.07 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 4,865
'test' 5,157
'train' 34,007

universal_dependencies/is_pud

  • 구성 설명 : Icelandic-PUD는 PUD(Parallel Universal Dependencies) 트리뱅크의 아이슬란드어 부분입니다.

  • 다운로드 크기 : 1.45 MiB

  • 데이터 세트 크기 : 1.89 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/id_csui

  • 구성 설명 : UD Indonesian-CSUI는 Dinakaramani 등이 구축한 선거구 트리뱅크에서 변환한 Kethu라는 Penn Treebank 형식의 인도네시아 선거구 트리뱅크에서 변환한 것입니다. (2015). 우리는 이 트리뱅크를 Indonesian-CSUI라고 명명했는데, 트리뱅크의 세 가지 버전이 모두 Universitas Indonesia의 컴퓨터 과학 학부에 구축되었기 때문입니다.

  • 다운로드 크기 : 1.62 MiB

  • 데이터 세트 크기 : 1.97 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 374
'train' 656

universal_dependencies/id_gsd

  • 구성 설명 : 인도네시아어 UD는 범용 종속 트리뱅크 v2.0(레거시)의 콘텐츠 헤드 버전에서 변환됩니다.

  • 다운로드 크기 : 9.15 MiB

  • 데이터 세트 크기 : 11.25 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 559
'test' 557
'train' 4,482

universal_dependencies/id_pud

  • 구성 설명 : 이는 원시 텍스트에서 범용 종속성으로 다국어 구문 분석에 대한 CoNLL 2017 공유 작업을 위해 생성된 PUD(Parallel Universal Dependencies) 트리뱅크의 일부입니다.

  • 다운로드 크기 : 1.10 MiB

  • 데이터 세트 크기 : 1.44 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/ga_idt

  • 구성 설명 : 현대 아일랜드어를 위한 Universal Dependencies 4910 문장 트리뱅크.

  • 다운로드 크기 : 7.62 MiB

  • 데이터 세트 크기 : 10.77 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 451
'test' 454
'train' 4,005

universal_dependencies/ga_twittirish

  • 구성 설명 : 현대 아일랜드어로 된 866개 트윗의 범용 종속성 트리뱅크입니다.

  • 다운로드 크기 : 782.30 KiB

  • 데이터 세트 크기 : 1.13 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 866

universal_dependencies/it_isdt

  • 구성 설명 : UD 주석 체계에 따라 주석이 달린 이탈리아어 코퍼스는 Evalita-2014(Bosco et al. 2014)의 종속성 구문 분석 공유 작업을 위해 출시된 ISDT(Italian Stanford Dependency Treebank)에서 변환하여 얻었습니다.

  • 다운로드 크기 : 20.03 MiB

  • 데이터 세트 크기 : 29.18 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 564
'test' 482
'train' 13,121

universal_dependencies/it_partut

  • 구성 설명 : UD_Italian-ParTUT는 토리노 대학에서 개발한 다국어 병렬 트리뱅크의 변환이며, 대화, 법률 텍스트 및 Wikipedia 기사를 포함한 다양한 텍스트 장르로 구성됩니다.

  • 다운로드 크기 : 3.42 MiB

  • 데이터 세트 크기 : 4.83 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 156
'test' 153
'train' 1,781

universal_dependencies/it_postwita

  • 구성 설명 : PoSTWITA-UD는 소셜 미디어 텍스트에서 성능을 향상시키기 위해 NLP 시스템의 교육에 악용될 수 있는 범용 종속성에 주석이 달린 이탈리아 트윗 모음입니다.

  • 다운로드 크기 : 7.27 MiB

  • 데이터 세트 크기 : 10.47 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 670
'test' 674
'train' 5,368

universal_dependencies/it_markit

  • 구성 설명 : 새로운 것은 MarkIT입니다: 표시된 건축물의 이탈리아 트리뱅크입니다. Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)

  • Download size : 2.48 MiB

  • Dataset size : 3.44 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 341
'test' 341
'train' 613

universal_dependencies/it_valico

  • Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.

  • Download size : 520.45 KiB

  • Dataset size : 657.38 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 398

universal_dependencies/it_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.56 MiB

  • 데이터 세트 크기 : 2.05 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/it_twittiro

  • Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.

  • Download size : 1.81 MiB

  • Dataset size : 2.51 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 144
'test' 142
'train' 1,138

universal_dependencies/it_vit

  • Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).

  • Download size : 16.77 MiB

  • Dataset size : 23.72 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 743
'test' 1,067
'train' 8,277

universal_dependencies/ja_pudluw

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 4.37 MiB

  • Dataset size : 5.11 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/ja_bccwjluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 59.20 MiB

  • Dataset size : 100.36 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 8,427
'test' 7,881
'train' 40,801

universal_dependencies/ja_gsdluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 28.31 MiB

  • Dataset size : 33.97 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 507
'test' 543
'train' 7,050

universal_dependencies/ja_bccwj

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 93.05 MiB

  • Dataset size : 157.62 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 8,427
'test' 7,881
'train' 40,801

universal_dependencies/ja_gsd

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 43.21 MiB

  • Dataset size : 52.59 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 507
'test' 543
'train' 7,050

universal_dependencies/ja_modern

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).

  • Download size : 2.06 MiB

  • Dataset size : 2.70 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 822

universal_dependencies/ja_pud

나뉘다
'test' 1,000

universal_dependencies/jv_csui

  • Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.

  • Download size : 141.40 KiB

  • Dataset size : 171.69 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 125

universal_dependencies/urb_tudet

  • Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.

  • Download size : 24.74 KiB

  • Dataset size : 33.60 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 83

universal_dependencies/xnr_kdtb

  • Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.

  • Download size : 132.92 KiB

  • Dataset size : 196.42 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 288

universal_dependencies/krl_kkpp

  • Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 220.80 KiB

  • Dataset size : 317.02 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 228

universal_dependencies/kk_ktb

  • Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.

  • Download size : 833.88 KiB

  • Dataset size : 1.15 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,047
'train' 31

universal_dependencies/arr_tudet

  • Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.

  • Download size : 174.70 KiB

  • Dataset size : 259.24 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 674

universal_dependencies/kfm_aha

  • Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.

  • Download size : 6.14 KiB

  • Dataset size : 7.56 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 10

universal_dependencies/quc_iu

  • Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.

  • Download size : 823.85 KiB

  • Dataset size : 1.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,435

universal_dependencies/koi_uh

  • Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.

  • Download size : 99.43 KiB

  • Dataset size : 118.77 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 100

universal_dependencies/kpv_ikdp

  • Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.

  • Download size : 202.88 KiB

  • Dataset size : 273.92 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 214

universal_dependencies/kpv_lattice

  • Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.

  • Download size : 741.82 KiB

  • Dataset size : 989.46 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 663

universal_dependencies/ko_gsd

  • Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.

  • Download size : 4.66 MiB

  • Dataset size : 6.31 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 950
'test' 989
'train' 4,400

universal_dependencies/ko_kaist

  • Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.

  • Download size : 20.84 MiB

  • Dataset size : 27.97 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 2,066
'test' 2,287
'train' 23,010

universal_dependencies/ko_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.92 MiB

  • Dataset size : 2.12 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/kmr_mg

  • Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.

  • Download size : 747.04 KiB

  • Dataset size : 1.07 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 734
'train' 20

universal_dependencies/la_ittb

  • Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.

  • Download size : 40.75 MiB

  • Dataset size : 55.54 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 2,101
'test' 2,101
'train' 22,775

universal_dependencies/la_udante

  • Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).

  • Download size : 4.87 MiB

  • Dataset size : 6.65 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 376
'test' 419
'train' 926

universal_dependencies/la_llct

  • Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.

  • Download size : 20.99 MiB

  • Dataset size : 27.77 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 850
'test' 884
'train' 7,289

universal_dependencies/la_perseus

  • Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1

  • Download size : 2.45 MiB

  • Dataset size : 3.53 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 939
'train' 1,334

universal_dependencies/la_proiel

  • Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.

  • Download size : 17.58 MiB

  • Dataset size : 25.21 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,234
'test' 1,260
'train' 15,917

universal_dependencies/lv_lvtb

  • Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.

  • Download size : 30.93 MiB

  • Dataset size : 42.49 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,957
'test' 2,325
'train' 12,521

universal_dependencies/lij_glt

  • Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.

  • Download size : 426.33 KiB

  • Dataset size : 636.88 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 296
'train' 20

universal_dependencies/lt_alksnis

  • Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).

  • Download size : 6.68 MiB

  • Dataset size : 9.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 617
'test' 684
'train' 2,341

universal_dependencies/lt_hse

  • Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.

  • Download size : 255.28 KiB

  • Dataset size : 1.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 153
'test' 153
'train' 153

universal_dependencies/olo_kkpp

  • Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 119.00 KiB

  • Dataset size : 165.75 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 106
'train' 19

universal_dependencies/nds_lsdc

  • Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.

  • Download size : 209.01 KiB

  • Dataset size : 280.72 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 83

universal_dependencies/mt_mudt

  • Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.

  • Download size : 1.92 MiB

  • Dataset size : 2.67 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 433
'test' 518
'train' 1,123

universal_dependencies/gv_cadhan

  • Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.

  • Download size : 1.26 MiB

  • Dataset size : 1.79 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 2,319

universal_dependencies/mr_ufal

  • Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.

  • Download size : 330.87 KiB

  • Dataset size : 496.00 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 46
'test' 47
'train' 373

universal_dependencies/gun_dooley

  • Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.

  • Download size : 560.08 KiB

  • Dataset size : 859.37 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,046

universal_dependencies/gun_thomas

  • Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.

  • Download size : 90.88 KiB

  • Dataset size : 120.86 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 98

universal_dependencies/mdf_jr

  • Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.

  • Download size : 343.96 KiB

  • Dataset size : 451.57 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 342

universal_dependencies/myu_tudet

  • Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.

  • Download size : 67.85 KiB

  • Dataset size : 83.48 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 158

universal_dependencies/pcm_nsc

  • Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).

  • Download size : 16.99 MiB

  • Dataset size : 21.58 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 991
'test' 972
'train' 7,278

universal_dependencies/nyq_aha

  • Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.

  • Download size : 6.24 KiB

  • Dataset size : 7.72 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 10

universal_dependencies/sme_giella

  • Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.

  • Download size : 1.78 MiB

  • Dataset size : 2.72 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 865
'train' 2,257

universal_dependencies/no_bokmaal

  • Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 18.29 MiB

  • Dataset size : 27.60 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 2,409
'test' 1,939
'train' 15,696

universal_dependencies/no_nynorsk

  • Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 17.68 MiB

  • Dataset size : 26.46 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,890
'test' 1,511
'train' 14,174

universal_dependencies/no_nynorsklia

  • Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 3.19 MiB

  • Dataset size : 4.78 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 881
'test' 957
'train' 3,412

universal_dependencies/cu_proiel

  • Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.

  • Download size : 5.92 MiB

  • Dataset size : 8.33 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,073
'test' 1,141
'train' 4,124

universal_dependencies/fro_srcmf

  • Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).

  • Download size : 13.51 MiB

  • Dataset size : 18.54 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,887
'test' 1,989
'train' 14,153

universal_dependencies/orv_birchbark

  • Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.

  • Download size : 4.04 MiB

  • Dataset size : 4.72 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,054
'test' 1,006
'train' 1,045

universal_dependencies/orv_rnc

  • Config description : UD_Old_Russian-RNC is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.

  • Download size : 2.95 MiB

  • Dataset size : 4.02 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 648
'train' 422

universal_dependencies/orv_torot

  • Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.

  • Download size : 14.49 MiB

  • Dataset size : 20.13 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,852
'test' 1,756
'train' 13,336

universal_dependencies/otk_tonqq

  • Config description : UD_Old_Turkish-Tonqq is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.

  • Download size : 10.44 KiB

  • Dataset size : 14.01 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 20

universal_dependencies/fa_perdt

  • Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).

  • Download size : 32.05 MiB

  • Dataset size : 43.48 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,456
'test' 1,455
'train' 26,196

universal_dependencies/fa_seraji

  • Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.

  • Download size : 9.43 MiB

  • Dataset size : 12.50 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 599
'test' 600
'train' 4,798

universal_dependencies/pl_lfg

  • Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.

  • Download size : 14.18 MiB

  • Dataset size : 18.96 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,745
'test' 1,727
'train' 13,774

universal_dependencies/pl_pdb

  • Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).

  • Download size : 34.66 MiB

  • Dataset size : 47.62 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 2,215
'test' 2,215
'train' 17,722

universal_dependencies/pl_pud

  • Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re

  • Download size : 1.91 MiB

  • Dataset size : 2.52 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/pt_bosque

  • Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.

  • Download size : 14.29 MiB

  • Dataset size : 20.41 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,172
'test' 1,167
'train' 7,018

universal_dependencies/pt_gsd

  • Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).

  • Download size : 14.57 MiB

  • Dataset size : 20.34 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,204
'test' 1,200
'train' 9,615

universal_dependencies/pt_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.48 MiB

  • Dataset size : 1.95 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/ro_art

  • Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.

  • Download size : 44.38 KiB

  • Dataset size : 65.95 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 50

universal_dependencies/ro_nonstandard

  • Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0

  • Download size : 48.00 MiB

  • Dataset size : 66.84 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,052
'test' 1,052
'train' 24,121

universal_dependencies/ro_rrt

  • Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.

  • Download size : 16.38 MiB

  • Dataset size : 22.96 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 752
'test' 729
'train' 8,043

universal_dependencies/ro_simonero

  • Config description : SiMoNERo is a medical corpus of contemporary Romanian.

  • Download size : 11.36 MiB

  • Dataset size : 15.68 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 443
'test' 491
'train' 3,747

universal_dependencies/ru_gsd

  • Config description : Russian Universal Dependencies Treebank annotated and converted by Google.

  • Download size : 8.42 MiB

  • Dataset size : 11.51 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 579
'test' 601
'train' 3,850

universal_dependencies/ru_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.78 MiB

  • Dataset size : 2.26 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/ru_syntagrus

  • Config description : Russian data from the SynTagRus corpus.

  • Download size : 97.99 MiB

  • Dataset size : 139.66 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 6,584
'test' 6,491
'train' 48,814

universal_dependencies/ru_taiga

  • Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.

  • Download size : 18.12 MiB

  • Dataset size : 24.32 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 946
'test' 881
'train' 16,045

universal_dependencies/sa_ufal

  • Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.

  • Download size : 414.72 KiB

  • Dataset size : 407.83 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 230

universal_dependencies/sa_vedic

  • Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.

  • Download size : 1.95 MiB

  • Dataset size : 3.14 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,473
'train' 2,524

universal_dependencies/gd_arcosg

  • Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).

  • Download size : 5.07 MiB

  • Dataset size : 7.20 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 655
'test' 545
'train' 3,539

universal_dependencies/sr_set

  • Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.

  • Download size : 7.07 MiB

  • Dataset size : 10.04 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 536
'test' 520
'train' 3,328

universal_dependencies/sms_giellagas

  • Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.

  • Download size : 216.27 KiB

  • Dataset size : 299.21 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 218

universal_dependencies/sk_snk

  • Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.

  • Download size : 9.55 MiB

  • Dataset size : 13.87 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,060
'test' 1,061
'train' 8,483

universal_dependencies/sl_ssj

  • Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.

  • Download size : 19.82 MiB

  • Dataset size : 28.72 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,250
'test' 1,282
'train' 10,903

universal_dependencies/sl_sst

  • Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.

  • Download size : 2.53 MiB

  • Dataset size : 3.88 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,110
'train' 2,078

universal_dependencies/soj_aha

  • Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.

  • Download size : 4.47 KiB

  • Dataset size : 5.58 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 8

universal_dependencies/ajp_madar

  • Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.

  • Download size : 42.16 KiB

  • Dataset size : 65.64 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 100

universal_dependencies/es_ancora

  • Config description : Spanish data from the AnCora corpus.

  • Download size : 50.23 MiB

  • Dataset size : 66.53 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,654
'test' 1,721
'train' 14,287

universal_dependencies/es_gsd

  • Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).

  • Download size : 24.86 MiB

  • Dataset size : 36.42 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,400
'test' 426
'train' 14,187

universal_dependencies/es_pud

나뉘다
'test' 1,000

universal_dependencies/swl_sslc

  • Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.

  • Download size : 79.78 KiB

  • Dataset size : 122.04 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 82
'test' 34
'train' 87

universal_dependencies/sv_lines

  • Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.

  • Download size : 6.91 MiB

  • Dataset size : 9.18 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,032
'test' 1,035
'train' 3,176

universal_dependencies/sv_pud

  • Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.

  • Download size : 1.64 MiB

  • Dataset size : 2.13 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/sv_talbanken

  • Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.

  • Download size : 8.08 MiB

  • Dataset size : 11.40 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 504
'test' 1,219
'train' 4,303

universal_dependencies/gsw_uzh

  • Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.

  • Download size : 58.28 KiB

  • Dataset size : 86.61 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 100

universal_dependencies/tl_trg

  • Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.

  • Download size : 59.91 KiB

  • Dataset size : 84.14 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 128

universal_dependencies/tl_ugnayan

  • Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.

  • Download size : 53.91 KiB

  • Dataset size : 76.16 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 94

universal_dependencies/ta_mwtt

  • Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.

  • Download size : 394.18 KiB

  • Dataset size : 499.94 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 534

universal_dependencies/ta_ttb

  • Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.

  • Download size : 1.68 MiB

  • Dataset size : 2.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 80
'test' 120
'train' 400

universal_dependencies/te_mtg

  • Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.

  • Download size : 628.67 KiB

  • Dataset size : 866.20 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 131
'test' 146
'train' 1,051

universal_dependencies/th_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.53 MiB

  • Dataset size : 1.85 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/tpn_tudet

  • Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.

  • Download size : 293.55 KiB

  • Dataset size : 371.48 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 546

universal_dependencies/qtd_sagt

  • Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.

  • Download size : 2.78 MiB

  • Dataset size : 4.28 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 801
'test' 805
'train' 578

universal_dependencies/tr_atis

  • Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.

  • Download size : 3.26 MiB

  • Dataset size : 5.09 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 572
'test' 586
'train' 4,274

universal_dependencies/tr_tourism

  • Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.

  • Download size : 6.48 MiB

  • Dataset size : 11.24 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 2,166
'test' 2,191
'train' 15,476

universal_dependencies/tr_kenet

  • Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.

  • Download size : 12.16 MiB

  • Dataset size : 19.00 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 1,646
'test' 1,643
'train' 15,398

universal_dependencies/tr_penn

  • Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)

  • Download size : 12.29 MiB

  • Dataset size : 18.82 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 622
'test' 924
'train' 14,850

universal_dependencies/tr_framenet

  • Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.

  • Download size : 1.43 MiB

  • Dataset size : 2.28 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 205
'test' 205
'train' 2,288

universal_dependencies/tr_boun

  • Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.

  • Download size : 9.07 MiB

  • Dataset size : 13.24 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 979
'test' 979
'train' 7,803

universal_dependencies/tr_gb

  • Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.

  • Download size : 1.41 MiB

  • Dataset size : 2.02 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 2,880

universal_dependencies/tr_imst

  • Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).

  • Download size : 4.51 MiB

  • Dataset size : 6.70 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 988
'test' 983
'train' 3,664

universal_dependencies/tr_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.29 MiB

  • Dataset size : 1.65 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,000

universal_dependencies/uk_iu

  • Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]

  • Download size : 16.54 MiB

  • Dataset size : 21.99 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 672
'test' 892
'train' 5,496

universal_dependencies/hsb_ufal

  • Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.

  • Download size : 762.63 KiB

  • Dataset size : 1.11 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 623
'train' 23

universal_dependencies/ur_udtb

  • Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.

  • Download size : 15.16 MiB

  • Dataset size : 21.57 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 552
'test' 535
'train' 4,043

universal_dependencies/ug_udt

  • Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.

  • Download size : 3.30 MiB

  • Dataset size : 4.59 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 900
'test' 900
'train' 1,656

universal_dependencies/vi_vtb

  • Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).

  • Download size : 1.96 MiB

  • Dataset size : 2.81 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 800
'test' 800
'train' 1,400

universal_dependencies/wbp_ufal

  • Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.

  • Download size : 37.58 KiB

  • Dataset size : 47.36 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 55

universal_dependencies/cy_ccg

  • Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.

  • Download size : 2.28 MiB

  • Dataset size : 3.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 953
'train' 976

universal_dependencies/hy_armtdp

  • Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.

  • Download size : 6.56 MiB

  • Dataset size : 8.50 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 249
'test' 277
'train' 1,974

universal_dependencies/wo_wtb

  • Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.

  • Download size : 2.65 MiB

  • Dataset size : 3.78 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 449
'test' 470
'train' 1,188

universal_dependencies/sjo_xdt

  • Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.

  • Download size : 1.50 MiB

  • Dataset size : 1.74 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 810

universal_dependencies/sah_yktdt

  • Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis

  • Download size : 51.76 KiB

  • Dataset size : 61.70 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 96

universal_dependencies/yo_ytb

  • Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.

  • Download size : 554.64 KiB

  • Dataset size : 767.54 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 318

universal_dependencies/ess_sli

  • Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).

  • Download size : 302.87 KiB

  • Dataset size : 410.25 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 309