Các phụ thuộc phổ quát (UD) là một khuôn khổ cho chú thích nhất quán về ngữ pháp (các phần của lời nói, các đặc điểm hình thái và các phụ thuộc cú pháp) trên các ngôn ngữ khác nhau của con người. UD là một nỗ lực của cộng đồng mở với hơn 300 người đóng góp tạo ra hơn 200 ngân hàng cây bằng hơn 100 ngôn ngữ. Nếu bạn chưa quen với UD, bạn nên bắt đầu bằng cách đọc phần đầu tiên của phần Giới thiệu ngắn và sau đó duyệt qua các hướng dẫn chú thích.

'deprel': Sequence(Text(shape=(), dtype=string)),
'deps': Sequence(Text(shape=(), dtype=string)),
'feats': Sequence(Text(shape=(), dtype=string)),
'head': Sequence(Text(shape=(), dtype=string)),
'idx': Text(shape=(), dtype=string),
'lemmas': Sequence(Text(shape=(), dtype=string)),
'misc': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'tokens': Sequence(Text(shape=(), dtype=string)),
'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
'xpos': Sequence(Text(shape=(), dtype=string)),
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
trục xuất Trình tự (Văn bản) (Không có,) sợi dây
người đẹp Trình tự (Văn bản) (Không có,) sợi dây
chiến công Trình tự (Văn bản) (Không có,) sợi dây
cái đầu Trình tự (Văn bản) (Không có,) sợi dây
idx Chữ sợi dây
bổ đề Trình tự (Văn bản) (Không có,) sợi dây
linh tinh Trình tự (Văn bản) (Không có,) sợi dây
chữ Chữ sợi dây
mã thông báo Trình tự (Văn bản) (Không có,) sợi dây
upos Trình tự (Nhãn lớp) (Không có,) int64
xpos Trình tự (Văn bản) (Không có,) sợi dây
universal_dependencies/af_afribooms (cấu hình mặc định)

  • Mô tả cấu hình : UD Afrikaans-AfriBooms là một chuyển đổi của Ngân hàng cây phụ thuộc AfriBooms, ban đầu được chú thích bằng một bộ PoS đơn giản hóa và các mối quan hệ phụ thuộc theo một tập hợp con của bộ thẻ Stanford. Các văn bản bao gồm các tài liệu công cộng của chính phủ. Bộ dữ liệu được đề xuất trong 'AfriBooms: An Online Treebank for Afrikaans' của Augustinus et al. (2016); https://www.aclweb.org/anthology/L16-1107.pdf

  • Kích thước tải xuống : 2.95 MiB

  • Kích thước tập dữ liệu : 4.02 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 194
'test' 425
'train' 1.315


  • Mô tả cấu hình : Một tập hợp nhỏ các câu từ chữ khắc của hoàng gia Babylon.

  • Kích thước tải xuống : 99.41 KiB

  • Kích thước tập dữ liệu : 126.32 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 101


  • Mô tả cấu hình : UD_Akkadian-RIAO là một treebank nhỏ bao gồm 22 277 từ và 1845 câu. Điều này đại diện cho một tập hợp con còn nguyên vẹn trong tổng số 2211 câu từ các bản khắc đầu tiên của hoàng gia Tân Assyria vào thế kỷ thứ mười và thứ chín trước Công nguyên. Những chữ khắc hoàng gia này được trích xuất từ ​​Oracc (Open Richly Annotated Cuneiform Corpus; http://oracc.museum.upenn.edu/riao/ ), trong đó tất cả các chữ khắc hoàng gia Tân Assyria đều được viết từ ngữ theo từng từ. Ngôn ngữ của kho ngữ liệu là tiếng Babylon chuẩn, thỉnh thoảng có tiếng Assyria, trong khi "Akkadian" là thuật ngữ chung cho cả tiếng Assyria và tiếng Babylon. Treebank được chú thích thủ công theo hướng dẫn chú thích của UD.

  • Kích thước tải xuống : 1.87 MiB

  • Kích thước tập dữ liệu : 2.79 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.874


  • Mô tả cấu hình : UD_Akuntsu-TuDeT là tập hợp các văn bản được chú thích bằng Akuntsu. Cùng với UD_Tupinamba-TuDeT và UD_Munduruku-TuDeT, UD_Akuntsu-TuDeT là một phần của dự án TuLaR. Các câu đang được chú thích bởi Carolina Aragon và Fabrício Ferraz Gerardi.

  • Kích thước tải xuống : 67.25 KiB

  • Kích thước tập dữ liệu : 97.39 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 243


  • Mô tả cấu hình : UD Treebank cho Standard Albanian (TSA) là một treebank nhỏ bao gồm 60 câu tương ứng với 922 mã thông báo. Dữ liệu được thu thập từ các mục Wikipedia khác nhau. Treebank này được tạo chủ yếu theo cách thủ công theo hướng dẫn của Universal Dependencies. Việc bổ sung được thực hiện bằng cách sử dụng công cụ bổ trợ https://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/ được phát triển bởi nhóm Corpus Quốc gia Albania (Maria Morozova, Alexander Rusakov, Timofey Arkhangelskiy). Gắn thẻ và Phân tích hình thái được bán tự động thông qua các tập lệnh python và được sửa theo cách thủ công, trong khi các mối quan hệ Phụ thuộc được chỉ định hoàn toàn thủ công. Chúng tôi khuyến khích mọi sáng kiến ​​để tăng quy mô và/hoặc cải thiện chất lượng tổng thể của Treebank.

  • Kích thước tải xuống : 62.00 KiB

  • Kích thước tập dữ liệu : 93.65 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 60


  • Mô tả cấu hình : UD_Amharic-ATT là một Treebanks được chú thích thủ công. Nó được chú thích cho thẻ POS, thông tin hình thái và quan hệ phụ thuộc. Vì tiếng Amharic là một ngôn ngữ phong phú về hình thái, pro-drop và có đặc điểm nhân đôi âm vị, nên các ngữ âm đã được phân đoạn thủ công.

  • Kích thước tải xuống : 995.32 KiB

  • Kích thước tập dữ liệu : 1.33 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.074


  • Mô tả cấu hình : Ngân hàng cây phụ thuộc toàn cầu tiếng Hy Lạp cổ đại này bao gồm chuyển đổi tự động một số đoạn từ Ngân hàng cây phụ thuộc tiếng Hy Lạp và Latinh cổ đại 2.1

  • Kích thước tải xuống : 18.02 MiB

  • Kích thước tập dữ liệu : 24.52 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.137
'test' 1.306
'train' 11,476


  • Mô tả cấu hình : Treebank PROIEL Hy Lạp cổ đại dựa trên dữ liệu Hy Lạp cổ đại từ treebank PROIEL, được duy trì tại Khoa Triết học, Kinh điển, Lịch sử Nghệ thuật và Ý tưởng tại Đại học Oslo. Chuyển đổi dựa trên bản phát hành 20180408 của ngân hàng cây PROIEL có sẵn từ https://github.com/proiel/proiel-treebank/releases Các chú thích ban đầu được xác nhận trong các tệp có sẵn ở đó. Mã chuyển đổi có sẵn trong Rubygem proiel-cli, https://github.com/proiel/proiel-cli

  • Kích thước tải xuống : 22.62 MiB

  • Kích thước tập dữ liệu : 30.92 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.019
'test' 1.047
'train' 15,014


  • Mô tả cấu hình : Bản phát hành đầu tiên chứa 70 câu được chú thích. Đây là treebank đầu tiên trong một ngôn ngữ từ gia đình Arawak. Các độ bóng xen kẽ ban đầu được bao gồm trong ngân hàng cây và việc chuyển đổi chúng thành chú thích UD đầy đủ là một quá trình đang diễn ra. Các giá trị send_id (ví dụ: FernandaM2017:Texto-6-19) là đại diện của nhà sưu tập, năm xuất bản, định danh văn bản và số câu theo thứ tự từ văn bản gốc.

  • Kích thước tải xuống : 95.51 KiB

  • Kích thước tập dữ liệu : 98.49 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 115


  • Mô tả cấu hình : PTNK tiếng Do Thái cổ đại UD chứa các phần của Biblia Hebraic Stuttgartensia với các chú thích hình thái học từ ETCBC.

  • Kích thước tải xuống : 3.11 MiB

  • Kích thước tập dữ liệu : 4.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 439
'test' 410
'train' 730


  • Mô tả cấu hình : Treebank bao gồm 19.738 câu (738889 mã thông báo) và miền của nó chủ yếu là newswire. Chú thích được cấp phép theo các điều khoản của CC BY-SA 4.0 và PATB gốc có thể được lấy từ trang web chính thức của LDC.

  • Kích thước tải xuống : 55.87 MiB

  • Kích thước tập dữ liệu : 78.33 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.986
'test' 1.963
'train' 15,789


  • Mô tả cấu hình : Treebank UD tiếng Ả Rập-PADT dựa trên Treebank phụ thuộc tiếng Ả Rập Praha (PADT), được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 48.84 MiB

  • Kích thước tập dữ liệu : 64.42 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 909
'test' 680
'train' 6,075


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.98 MiB

  • Kích thước tập dữ liệu : 2.34 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : The Uppsala Assyrian Treebank là một ngân hàng cây nhỏ dành cho người Assyria tiêu chuẩn hiện đại. Kho ngữ liệu được thu thập và chú thích thủ công. Dữ liệu được thu thập ngẫu nhiên từ các sách giáo khoa khác nhau và bản dịch ngắn của The Merchant of Venice.

  • Kích thước tải xuống : 31.99 KiB

  • Kích thước tập dữ liệu : 48.85 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 57


  • Mô tả cấu hình : Treebank UD Bambara là một phần của Corpus Référence du Bambara được chú thích nguyên bản với các Phụ thuộc phổ quát.

  • Kích thước tải xuống : 873.37 KiB

  • Kích thước tập dữ liệu : 1.25 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.026


  • Mô tả cấu hình : Treebank Basque UD dựa trên chuyển đổi tự động từ một phần của Basque Dependency Treebank (BDT), được tạo tại Đại học xứ Basque bởi nhóm nghiên cứu IXA NLP. Treebank bao gồm 8.993 câu (121.443 mã thông báo) và chủ yếu bao gồm các văn bản văn học và báo chí.

  • Kích thước tải xuống : 7.83 MiB

  • Kích thước tập dữ liệu : 11.74 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.798
'test' 1.799
'train' 5,396


  • Mô tả cấu hình : Kho văn bản phụ thuộc toàn cầu cho Beja, nhánh Bắc Cushitic của ngành Phi-Á chủ yếu được nói ở Sudan, Ai Cập và Eritrea.

  • Kích thước tải xuống : 136.52 KiB

  • Kích thước tập dữ liệu : 168.15 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 56


  • Mô tả cấu hình : Treebank UD của Bêlarut dựa trên một mẫu văn bản tin tức có trong tiểu văn bản song song Bêlarut-Nga của Kho dữ liệu quốc gia Nga, tìm kiếm trực tuyến có sẵn tại: http://ruscorpora.ru/search-para-be.html

  • Kích thước tải xuống : 30.04 MiB

  • Kích thước tập dữ liệu : 39.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.301
'test' 1.077
'train' 22,853


  • Mô tả cấu hình : Treebank BRU Bengali đã được tạo tại Đại học Begum Rokeya, Rangpur, bởi các thành viên của Semantics Lab.

  • Kích thước tải xuống : 38.41 KiB

  • Kích thước tập dữ liệu : 51.42 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 56


  • Mô tả cấu hình : Bhojpuri UD Treebank (BHTB) v2.6 bao gồm 6.664 mã thông báo (357 câu). Treebank này là một phần của dự án ngân hàng cây phụ thuộc toàn cầu. Ban đầu, nó được khởi xướng bởi tôi (Atul) tại Đại học Jawaharlal Nehru, New Delhi trong quá trình nghiên cứu tiến sĩ. Dữ liệu BHTB chứa chú thích cú pháp theo lược đồ thành phần phụ thuộc, cũng như các thẻ và bổ đề hình thái. Trong dữ liệu này, XPOS được chú thích theo bộ thẻ Part Of Speech (POS) của Cục Tiêu chuẩn Ấn Độ (BIS).

  • Kích thước tải xuống : 599.76 KiB

  • Kích thước tập dữ liệu : 817.23 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 357


  • Mô tả cấu hình : UD Breton-KEB là một treebank của Breton đã được chú thích theo cách thủ công theo nguyên tắc Phụ thuộc chung. Nguyên tắc mã thông báo hóa và chú thích hình thái đến từ một máy phân tích hình thái trạng thái hữu hạn của Breton được phát hành như một phần của dự án Apertium.

  • Kích thước tải xuống : 663.63 KiB

  • Kích thước tập dữ liệu : 863.36 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 888


  • Mô tả cấu hình : UD_Bulgarian-BTB dựa trên BulTreeBank dựa trên HPSG, được tạo tại Viện Công nghệ Thông tin và Truyền thông, Viện Hàn lâm Khoa học Bungari. Bản gốc bao gồm 215.000 mã thông báo (hơn 15.000 câu).

  • Kích thước tải xuống : 14.22 MiB

  • Kích thước tập dữ liệu : 20.01 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.115
'test' 1.116
'train' 8,907


  • Mô tả cấu hình : Ngân hàng cây UD Buryat được chú thích thủ công nguyên bản trong UD và chứa các câu trong sách ngữ pháp, cùng với tin tức và một số tiểu thuyết.

  • Kích thước tải xuống : 710.23 KiB

  • Kích thước tập dữ liệu : 1018.12 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 908
'train' 19


  • Mô tả cấu hình : Một treebank tiếng Quảng Đông (bằng ký tự Trung Quốc phồn thể) chứa phụ đề phim và thủ tục lập pháp của Hồng Kông, song song với treebank Trung Quốc-HK.

  • Kích thước tải xuống : 693.38 KiB

  • Kích thước tập dữ liệu : 1.04 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,004


  • Mô tả cấu hình : Dữ liệu tiếng Catalan từ AnCora corpus.

  • Kích thước tải xuống : 48.14 MiB

  • Kích thước tập dữ liệu : 64.03 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.709
'test' 1.846
'train' 13,123


  • Mô tả cấu hình : UD_Cebuano_GJA là tập hợp các câu mẫu tiếng Cebuano có chú thích được lấy ngẫu nhiên từ ba nguồn khác nhau: các mẫu do cộng đồng đóng góp từ trang web Tatoeba, sách ngữ pháp tiếng Cebuano của Bunye & Yap (1971) và ngữ pháp tham khảo về tiếng Cebuano của Tanangkinsing (2011). Dự án này hiện đang được tiến hành.

  • Kích thước tải xuống : 99.30 KiB

  • Kích thước tập dữ liệu : 136.74 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 188


  • Mô tả cấu hình : Treebank UD tiếng Trung-CFL được Keying Li chú thích thủ công với các sửa đổi thủ công nhỏ của Herman Leung và John Lee tại Đại học Thành phố Hồng Kông, dựa trên các bài tiểu luận được viết bởi những người học tiếng Quan Thoại như một ngoại ngữ. Dữ liệu bằng tiếng Trung giản thể.

  • Kích thước tải xuống : 375.71 KiB

  • Kích thước tập dữ liệu : 558.45 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 451


  • Mô tả cấu hình : Treebank phụ thuộc phổ quát truyền thống của Trung Quốc được chú thích và chuyển đổi bởi Google.

  • Kích thước tải xuống : 6.48 MiB

  • Kích thước tập dữ liệu : 8.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 500
'test' 500
'train' 3,997


  • Mô tả cấu hình : Bộ dữ liệu phụ thuộc phổ quát tiếng Trung giản thể được chuyển đổi từ bộ dữ liệu GSD (truyền thống) với các chỉnh sửa thủ công.

  • Kích thước tải xuống : 6.48 MiB

  • Kích thước tập dữ liệu : 8.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 500
'test' 500
'train' 3,997


  • Mô tả cấu hình : Một treebank truyền thống của Trung Quốc chứa phụ đề phim và các thủ tục lập pháp của Hồng Kông, song song với treebank Quảng Đông-HK.

  • Kích thước tải xuống : 482.85 KiB

  • Kích thước tập dữ liệu : 779.66 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,004


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.53 MiB

  • Kích thước tập dữ liệu : 1.95 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : Dữ liệu này là chú thích thủ công của kho văn bản từ kho văn bản được chú thích đa phương tiện của dự án Chuklang, một kho văn bản phương ngữ của biến thể Amguema của Chukchi.

  • Kích thước tải xuống : 793.16 KiB

  • Kích thước tập dữ liệu : 828.50 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,004


  • Mô tả cấu hình : Treebank phụ thuộc phổ quát tiếng Trung cổ điển được chú thích và chuyển đổi bởi Viện nghiên cứu nhân văn, Đại học Kyoto.

  • Kích thước tải xuống : 26.86 MiB

  • Kích thước tập dữ liệu : 39.40 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 5,687
'test' 4,932
'train' 48,569


  • Mô tả cấu hình : UD Coptic chứa các văn bản Sahidic Coptic được chú thích thủ công, bao gồm các văn bản Kinh thánh, bài giảng, thư từ và thánh tích.

  • Kích thước tải xuống : 4.73 MiB

  • Kích thước tập dữ liệu : 6.12 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 381
'test' 403
'train' 1.227


  • Mô tả cấu hình : Treebank UD của Croatia dựa trên phần mở rộng của kho văn bản SETimes-HR, kho văn bản hr500k.

  • Kích thước tải xuống : 14.41 MiB

  • Kích thước tập dữ liệu : 20.43 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 960
'test' 1.136
'train' 6,914


  • Mô tả cấu hình : Treebank UD_Czech-CAC dựa trên Czech Academic Corpus 2.0 (CAC; Český akademický korpus; ČAK), được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 53.72 MiB

  • Kích thước tập dữ liệu : 73.74 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 603
'test' 628
'train' 23,478


  • Mô tả cấu hình : Treebank UD_Czech-CLTT dựa trên Treebank Văn bản pháp lý Séc 1.0, được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 3.57 MiB

  • Kích thước tập dữ liệu : 4.73 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 129
'test' 136
'train' 860


  • Mô tả cấu hình : FicTree là một treebank tiểu thuyết của Séc, được tự động chuyển đổi sang định dạng UD. Treebank được xây dựng tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 16.65 MiB

  • Kích thước tập dữ liệu : 23.29 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.309
'test' 1.291
'train' 10.160


  • Mô tả cấu hình : Treebank Czech-PDT UD dựa trên Treebank phụ thuộc Praha 3.0 (PDT), được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 164.29 MiB

  • Kích thước tập dữ liệu : 224.30 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (nhà phát triển, kiểm tra), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'dev' 9.270
'test' 10,148
'train' 68,495


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 2.14 MiB

  • Kích thước tập dữ liệu : 2.76 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : Treebank UD của Đan Mạch là một chuyển đổi của Treebank phụ thuộc của Đan Mạch.

  • Kích thước tải xuống : 6.13 MiB

  • Kích thước tập dữ liệu : 9.15 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 564
'test' 565
'train' 4,383


  • Mô tả cấu hình : Kho văn bản này bao gồm các mẫu từ nhiều ngân hàng cây khác nhau được chú thích tại Đại học Groningen bằng cách sử dụng các hướng dẫn và công cụ chú thích của Alpino.

  • Kích thước tải xuống : 15.98 MiB

  • Kích thước tập dữ liệu : 21.03 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 718
'test' 596
'train' 12,289


  • Mô tả cấu hình : Tập văn bản này chứa các câu từ phần Wikipedia của Lassy Small Treebank. Chú thích Universal Dependency được tạo tự động từ chú thích ban đầu trong Lassy.

  • Kích thước tải xuống : 7.61 MiB

  • Kích thước tập dữ liệu : 9.86 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 676
'test' 876
'train' 5,789


  • Mô tả cấu hình : UD English-ESL / Treebank of Learner English (TLE) chứa thẻ POS thủ công và chú thích phụ thuộc cho 5.124 câu tiếng Anh là ngôn ngữ thứ hai (ESL) được rút ra từ bộ dữ liệu Chứng chỉ đầu tiên về tiếng Anh (FCE) của Cambridge Learner Corpus.

  • Kích thước tải xuống : 3.20 MiB

  • Kích thước tập dữ liệu : 4.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 500
'test' 500
'train' 4,124


  • Mô tả cấu hình : Tập dữ liệu phụ thuộc phổ quát tiêu chuẩn vàng cho tiếng Anh, được xây dựng dựa trên tài liệu nguồn của Web Treebank tiếng Anh LDC2012T13 ( https://catalog.ldc.upenn.edu/LDC2012T13 ).

  • Kích thước tải xuống : 16.37 MiB

  • Kích thước tập dữ liệu : 23.60 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2.001
'test' 2,077
'train' 12,543


  • Mô tả cấu hình : Chú thích cú pháp Phụ thuộc phổ quát từ kho văn bản GUM ( https://corpling.uis.georgetown.edu/gum/ ).

  • Kích thước tải xuống : 13.81 MiB

  • Kích thước tập dữ liệu : 18.21 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.117
'test' 1.096
'train' 6,917


  • Mô tả cấu hình : Chú thích cú pháp Phụ thuộc phổ quát từ phần Reddit của kho văn bản GUM ( https://corpling.uis.georgetown.edu/gum/ )

  • Kích thước tải xuống : 1.47 MiB

  • Kích thước tập dữ liệu : 2.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 104
'test' 105
'train' 686


  • Mô tả cấu hình : UD English_LinES là một nửa tiếng Anh của Ngân hàng cây song song LinES với chú thích phụ thuộc ban đầu trước tiên được tự động chuyển đổi thành Phụ thuộc chung và sau đó được xem xét một phần. Nội dung của nó bao gồm tài liệu, hướng dẫn trực tuyến và dữ liệu Europarl.

  • Kích thước tải xuống : 5.27 MiB

  • Kích thước tập dữ liệu : 7.54 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.032
'test' 1.035
'train' 3.176


  • Mô tả cấu hình : UD Atis Treebank là một treebank được chú thích thủ công bao gồm các câu trong bộ dữ liệu Atis (Thông tin du lịch hàng không) bao gồm các bản phiên âm giọng nói của những người hỏi thông tin chuyến bay trên hệ thống hỏi tự động.

  • Kích thước tải xuống : 3.06 MiB

  • Kích thước tập dữ liệu : 4.76 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 572
'test' 586
'train' 4,274


  • Mô tả cấu hình : UD_English-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.

  • Kích thước tải xuống : 2.59 MiB

  • Kích thước tập dữ liệu : 3.65 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 156
'test' 153
'train' 1.781


  • Mô tả cấu hình : UD English-Pronouns là tập dữ liệu được tạo để giúp nhận dạng đại từ chính xác hơn và có sự phân bổ cân bằng hơn giữa các giới tính. Bộ dữ liệu ban đầu đang nhắm mục tiêu các đại từ Sở hữu cách độc lập, 'của cô ấy', (độc lập) 'của anh ấy', (số ít) 'của họ', 'của tôi' và (số ít) 'của bạn'.

  • Kích thước tải xuống : 138.08 KiB

  • Kích thước tập dữ liệu : 186.09 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 285


  • Mô tả cấu hình : Đây là phần tiếng Anh của ngân hàng cây Các phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ chia sẻ CoNLL 2017 về Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Các phụ thuộc phổ biến ( http://universaldependencies.org/conll17/ ).

  • Kích thước tải xuống : 1.28 MiB

  • Kích thước tập dữ liệu : 1.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : UD Erzya là chú thích gốc (CoNLL-U) cho các văn bản bằng ngôn ngữ Erzya, ban đầu nó bao gồm một mẫu từ một số tác giả tiểu thuyết viết bản gốc bằng tiếng Erzya.

  • Kích thước tải xuống : 1.88 MiB

  • Kích thước tập dữ liệu : 2.47 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.714


  • Mô tả cấu hình : UD Estonian là phiên bản được chuyển đổi của Estonian Dependency Treebank (EDT), ban đầu được chú thích trong lược đồ chú thích Ngữ pháp ràng buộc (CG) và bao gồm các thể loại tiểu thuyết, văn bản báo chí và văn bản khoa học. Treebank chứa 30.972 cây, 437.769 mã thông báo.

  • Kích thước tải xuống : 31.09 MiB

  • Kích thước tập dữ liệu : 45.98 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 3,127
'test' 3,214
'train' 24,632


  • Mô tả cấu hình : Treebank UD EWT bao gồm các thể loại phương tiện mới khác nhau. Treebank chứa 4.493 cây, 56.399 mã thông báo.

  • Kích thước tải xuống : 5.35 MiB

  • Kích thước tập dữ liệu : 8.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 833
'test' 913
'train' 4,579


  • Mô tả cấu hình : UD_Icelandic-FarPaHC là một chuyển đổi của Kho dữ liệu lịch sử được phân tích cú pháp tiếng Faroese (FarPaHC) sang lược đồ Phụ thuộc phổ quát. Quá trình chuyển đổi được thực hiện bằng UDConverter.

  • Kích thước tải xuống : 2.09 MiB

  • Kích thước tập dữ liệu : 2.84 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 300
'test' 301
'train' 1.020


  • Mô tả cấu hình : Đây là một treebank của tiếng Faroe dựa trên Wikipedia tiếng Faroe.

  • Kích thước tải xuống : 783.86 KiB

  • Kích thước tập dữ liệu : 1.07 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.208


  • Mô tả cấu hình : FinnTreeBank 1 bao gồm các ví dụ ngữ pháp được chú thích thủ công từ VISK. Phiên bản UD của FinnTreeBank 1 đã được chuyển đổi từ mô hình chú thích gốc bằng tập lệnh và sau đó được sửa đổi thủ công.

  • Kích thước tải xuống : 12.52 MiB

  • Kích thước tập dữ liệu : 18.45 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.875
'test' 1.867
'train' 14,981


  • Mô tả cấu hình : Phần Lan-OOD là bộ thử nghiệm ngoài miền bên ngoài dành cho Phần Lan-TDT được chú thích nguyên bản vào sơ đồ UD.

  • Kích thước tải xuống : 1.40 MiB

  • Kích thước tập dữ liệu : 2.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.122


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.34 MiB

  • Kích thước tập dữ liệu : 1.80 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : UD_Finnish-TDT dựa trên Treebank phụ thuộc Turku (TDT), một treebank phụ thuộc có phạm vi bao phủ rộng của Phần Lan nói chung bao gồm nhiều thể loại. Việc chuyển đổi sang UD được theo sau bởi quá trình kiểm tra và chỉnh sửa thủ công rộng rãi, và treebank tuân thủ chặt chẽ các hướng dẫn của UD.

  • Kích thước tải xuống : 15.84 MiB

  • Kích thước tập dữ liệu : 23.17 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.364
'test' 1.555
'train' 12,217


  • Mô tả cấu hình : Kho ngữ liệu UD_French-FQB là chuyển đổi tự động của Ngân hàng câu hỏi tiếng Pháp v1, một kho ngữ liệu hoàn toàn gồm các câu hỏi.

  • Kích thước tải xuống : 1.47 MiB

  • Kích thước tập dữ liệu : 2.32 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.289


  • Mô tả cấu hình : Phiên bản Universal Dependency của French Treebank (Abeillé et al., 2003), sau đây gọi là UD_French-FTB, là một treebank các câu từ tờ báo Le Monde, ban đầu được chú thích thủ công với thông tin hình thái học và cấu trúc cụm từ, sau đó được chuyển đổi thành lược đồ chú thích Phụ thuộc phổ quát.

  • Kích thước tải xuống : 29.49 MiB

  • Kích thước tập dữ liệu : 44.93 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.235
'test' 2.541
'train' 14,759


  • Mô tả cấu hình : UD_French-GSD đã được chuyển đổi vào năm 2015 từ phiên bản đầu nội dung của treebank phụ thuộc toàn cầu v2.0 ( https://github.com/ryanmcd/uni-dep-tb ). Nó được cập nhật từ năm 2015 độc lập với nguồn trước đó.

  • Kích thước tải xuống : 24.38 MiB

  • Kích thước tập dữ liệu : 35.77 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,476
'test' 416
'train' 14,449


  • Mô tả cấu hình : UD_French-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.

  • Kích thước tải xuống : 1.74 MiB

  • Kích thước tập dữ liệu : 2.44 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 107
'test' 110
'train' 803


  • Mô tả cấu hình : Kho dữ liệu phụ thuộc chung cho tiếng Pháp nói.

  • Kích thước tải xuống : 3.00 MiB

  • Kích thước tập dữ liệu : 4.10 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.082
'test' 840
'train' 1.288


  • Mô tả cấu hình : Paris Stories là một kho văn bản tiếng Pháp truyền miệng được thu thập và phiên âm bởi các sinh viên Ngôn ngữ học từ Sorbonne Nouvelle và được sửa chữa bởi các sinh viên từ Bằng Thạc sĩ Ngôn ngữ học Máy tính Đa âm (Inalco, Paris Nanterre, Sorbonne Nouvelle) từ năm 2017 đến 2021. Nó chứa các đoạn độc thoại và đối thoại từ diễn giả sống trong khu vực Paris.

  • Kích thước tải xuống : 1.97 MiB

  • Kích thước tập dữ liệu : 2.70 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 547
'train' 1.216


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.71 MiB

  • Kích thước tập dữ liệu : 2.24 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : UD_French-Sequoia là một chuyển đổi tự động của Sequoia Treebank corpus French Sequoia corpus.

  • Kích thước tải xuống : 4.21 MiB

  • Kích thước tập dữ liệu : 6.18 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 412
'test' 456
'train' 2.231


  • Mô tả cấu hình : Treebank Galicia UD dựa trên phân tích cú pháp tự động của Galicia Technical Corpus ( http://sli.uvigo.gal/CTG ) do nhóm nghiên cứu TALG NLP tạo ra tại Đại học Vigo.

  • Kích thước tải xuống : 7.85 MiB

  • Kích thước tập dữ liệu : 10.81 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 860
'test' 861
'train' 2.272


  • Mô tả cấu hình : Galician-TreeGal là một treebank dành cho Galicia được phát triển tại LyS Group (Đại học da Coruña).

  • Kích thước tải xuống : 1.66 MiB

  • Kích thước tập dữ liệu : 2.35 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 400
'train' 600


  • Mô tả cấu hình : UD của Đức được chuyển đổi từ phiên bản nội dung chính của treebank phụ thuộc phổ quát v2.0 (cũ).

  • Kích thước tải xuống : 20.69 MiB

  • Kích thước tập dữ liệu : 29.60 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 799
'test' 977
'train' 13,814


  • Mô tả cấu hình : UD German-HDT là một chuyển đổi của Hamburg Dependency Treebank, được tạo tại Đại học Hamburg thông qua chú thích thủ công kết hợp với một tiêu chuẩn cho các câu chú thích về mặt hình thái và cú pháp cũng như trình phân tích cú pháp dựa trên ràng buộc.

  • Kích thước tải xuống : 242.97 MiB

  • Kích thước tập dữ liệu : 347.93 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'dev' 18,434
'test' 18,459
'train' 153,035


  • Mô tả cấu hình : Treebank này nhằm mục đích thu thập các văn bản về lịch sử văn học Đức. Hiện tại, nó lưu trữ Những mảnh vỡ của Chủ nghĩa lãng mạn thời kỳ đầu, tức là các văn bản giống như cách ngôn chủ yếu giải quyết các vấn đề triết học liên quan đến nghệ thuật, cái đẹp và các chủ đề liên quan.

  • Kích thước tải xuống : 1.97 MiB

  • Kích thước tập dữ liệu : 2.49 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,922


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.65 MiB

  • Kích thước tập dữ liệu : 2.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : Ngân hàng cây UD Gothic dựa trên dữ liệu Gothic từ ngân hàng cây PROIEL và bao gồm bản dịch Kinh thánh của Wulfila.

  • Kích thước tải xuống : 4.98 MiB

  • Kích thước tập dữ liệu : 7.17 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 985
'test' 1.029
'train' 3,387


  • Mô tả cấu hình : Treebank UD Hy Lạp (UD_Greek-GDT) được lấy từ Treebank phụ thuộc Hy Lạp ( http://gdt.ilsp.gr ), một tài nguyên được phát triển và duy trì bởi các nhà nghiên cứu tại Viện Xử lý Ngôn ngữ và Lời nói/Athena RC ( http://www.ilsp.gr ).

  • Kích thước tải xuống : 5.52 MiB

  • Kích thước tập dữ liệu : 7.49 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 403
'test' 456
'train' 1.662


  • Mô tả cấu hình : UD_Guajajara-TuDeT là tập hợp các câu được chú thích bằng tiếng Guajajara. Các câu xuất phát từ nhiều nguồn như mô tả ngôn ngữ, truyện ngắn, từ điển và bản dịch từ Tân Ước. Chú thích câu và tài liệu của Lorena Martín Rodríguez và Fabrício Ferraz Gerardi.

  • Kích thước tải xuống : 683.38 KiB

  • Kích thước tập dữ liệu : 738.09 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.126


  • Mô tả cấu hình : UD_Guarani-OldTuDeT là tập hợp các văn bản được chú thích bằng tiếng Guaraní cổ. Tất cả các nguồn được biết đến trong ngôn ngữ này đang được chú thích: cathesism, ngữ pháp (thế kỷ mười bảy và mười tám), câu từ từ điển và các văn bản khác. Chú thích câu và tài liệu của Fabrício Ferraz Gerardi và Lorena Martín Rodríguez.

  • Kích thước tải xuống : 18.93 KiB

  • Kích thước tập dữ liệu : 24.71 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 59


  • Mô tả cấu hình : Tập dữ liệu phụ thuộc chung cho tiếng Do Thái.

  • Kích thước tải xuống : 11.64 MiB

  • Kích thước tập dữ liệu : 16.10 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 484
'test' 491
'train' 5,241


  • Mô tả cấu hình : Tập hợp con có sẵn công khai của phần Wikipedia của IAHLT UD Hebrew Treebank ( https://www.iahlt.org/ )

  • Kích thước tải xuống : 10.30 MiB

  • Kích thước tập dữ liệu : 14.16 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 348
'test' 393
'train' 4.298


  • Mô tả cấu hình : UD_Frisian_Dutch-Fame là tuyển tập 400 câu từ FAME! văn bản lời nói của Yilmaz et al. (2016a, 2016b). Treebank được chú thích thủ công bằng lược đồ UD.

  • Kích thước tải xuống : 232.57 KiB

  • Kích thước tập dữ liệu : 290.88 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 400


  • Mô tả cấu hình : Treebank chuyển đổi mã Hindi-English dựa trên các tweet chuyển đổi mã của những người nói đa ngôn ngữ Hindi và tiếng Anh (chủ yếu là người Ấn Độ) trên Twitter. Treebank được chú thích thủ công bằng UD sceheme. Các bộ đào tạo và đánh giá được chú thích riêng biệt bởi các nhà chú thích khác nhau bằng cách sử dụng hướng dẫn UD v2 và v1 tương ứng. Các bộ đánh giá được tự động chuyển đổi từ UD v1 sang v2.

  • Kích thước tải xuống : 893.15 KiB

  • Kích thước tập dữ liệu : 1.53 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 225
'test' 225
'train' 1.448


  • Mô tả cấu hình : Treebank UD tiếng Hindi dựa trên Treebank phụ thuộc tiếng Hindi (HDTB), được tạo tại IIIT Hyderabad, Ấn Độ.

  • Kích thước tải xuống : 49.18 MiB

  • Kích thước tập dữ liệu : 68.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.659
'test' 1.684
'train' 13,304


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 2.20 MiB

  • Kích thước tập dữ liệu : 2.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : Treebank UD của Hungary có nguồn gốc từ Treebank phụ thuộc Szeged (Vincze et al. 2010).

  • Kích thước tải xuống : 2.92 MiB

  • Kích thước tập dữ liệu : 4.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 441
'test' 449
'train' 910

phổ_phụ thuộc/là_hiện_đại

  • Mô tả cấu hình : UD_Icelandic-Modern là sự chuyển đổi các phần bổ sung hiện đại cho Kho dữ liệu lịch sử được phân tích cú pháp tiếng Iceland (IcePaHC) sang sơ đồ Phụ thuộc phổ quát.

  • Kích thước tải xuống : 9.02 MiB

  • Kích thước tập dữ liệu : 12.32 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 784
'test' 768
'train' 5,376


  • Mô tả cấu hình : UD_Icelandic-IcePaHC là một chuyển đổi của Tập dữ liệu lịch sử được phân tích cú pháp tiếng Iceland (IcePaHC) sang sơ đồ Phụ thuộc phổ quát. Quá trình chuyển đổi được thực hiện bằng UDConverter.

  • Kích thước tải xuống : 81.16 MiB

  • Kích thước tập dữ liệu : 112.07 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 4.865
'test' 5,157
'train' 34,007


  • Mô tả cấu hình : Icelandic-PUD là phần tiếng Iceland của ngân hàng cây Parallel Universal Dependencies (PUD).

  • Kích thước tải xuống : 1.45 MiB

  • Kích thước tập dữ liệu : 1.89 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : UD Indonesia-CSUI là một chuyển đổi từ một ngân hàng cây bầu cử Indonesia ở định dạng Penn Treebank có tên Kethu, đó cũng là một chuyển đổi từ một ngân hàng cây bầu cử được xây dựng bởi Dinakaramani et al. (2015). Chúng tôi đặt tên cho ngân hàng cây này là Indonesia-CSUI, vì cả ba phiên bản ngân hàng cây này đều được xây dựng tại Khoa Khoa học Máy tính, Đại học Indonesia.

  • Kích thước tải xuống : 1.62 MiB

  • Kích thước tập dữ liệu : 1.97 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 374
'train' 656


  • Mô tả cấu hình : UD Indonesia được chuyển đổi từ phiên bản đầu nội dung của treebank phụ thuộc phổ quát v2.0 (cũ).

  • Kích thước tải xuống : 9.15 MiB

  • Kích thước tập dữ liệu : 11.25 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 559
'test' 557
'train' 4,482


  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ chia sẻ CoNLL 2017 về Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.10 MiB

  • Kích thước tập dữ liệu : 1.44 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Mô tả cấu hình : Một ngân hàng cây 4910 câu phụ thuộc toàn cầu cho tiếng Ireland hiện đại.

  • Kích thước tải xuống : 7.62 MiB

  • Kích thước tập dữ liệu : 10.77 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 451
'test' 454
'train' 4,005


  • Mô tả cấu hình : Một ngân hàng cây phụ thuộc toàn cầu gồm 866 tweet bằng tiếng Ireland hiện đại.

  • Kích thước tải xuống : 782.30 KiB

  • Kích thước tập dữ liệu : 1.13 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 866


  • Mô tả cấu hình : Tập văn bản tiếng Ý được chú thích theo sơ đồ chú thích UD thu được bằng cách chuyển đổi từ ISDT (Ngân hàng cây phụ thuộc Stanford của Ý), được phát hành cho nhiệm vụ chia sẻ phân tích cú pháp phụ thuộc của Evalita-2014 (Bosco et al. 2014).

  • Kích thước tải xuống : 20.03 MiB

  • Kích thước tập dữ liệu : 29.18 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 564
'test' 482
'train' 13,121


  • Mô tả cấu hình : UD_Italian-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.

  • Kích thước tải xuống : 3.42 MiB

  • Kích thước tập dữ liệu : 4.83 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 156
'test' 153
'train' 1.781


  • Mô tả cấu hình : PoSTWITA-UD là tập hợp các tweet của Ý được chú thích trong Phần phụ thuộc chung có thể được khai thác để đào tạo các hệ thống NLP nhằm nâng cao hiệu suất của chúng trên các văn bản truyền thông xã hội.

  • Kích thước tải xuống : 7.27 MiB

  • Kích thước tập dữ liệu : 10.47 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 670
'test' 674
'train' 5,368


  • Mô tả cấu hình : Đó là MarkIT Mới: Một Treebank Ý về các công trình được đánh dấu. Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)

  • Download size : 2.48 MiB

  • Dataset size : 3.44 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 341
'test' 341
'train' 613


  • Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.

  • Download size : 520.45 KiB

  • Dataset size : 657.38 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 398


  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.56 MiB

  • Dataset size : 2.05 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.

  • Download size : 1.81 MiB

  • Dataset size : 2.51 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 144
'test' 142
'train' 1,138


  • Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).

  • Download size : 16.77 MiB

  • Dataset size : 23.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 743
'test' 1,067
'train' 8,277


  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 4.37 MiB

  • Dataset size : 5.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 59.20 MiB

  • Dataset size : 100.36 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 8,427
'test' 7,881
'train' 40,801


  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 28.31 MiB

  • Dataset size : 33.97 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 507
'test' 543
'train' 7,050


  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 93.05 MiB

  • Dataset size : 157.62 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 8,427
'test' 7,881
'train' 40,801


  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 43.21 MiB

  • Dataset size : 52.59 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 507
'test' 543
'train' 7,050


  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).

  • Download size : 2.06 MiB

  • Dataset size : 2.70 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 822


Tách ra ví dụ
'test' 1.000


  • Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.

  • Download size : 141.40 KiB

  • Dataset size : 171.69 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 125


  • Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.

  • Download size : 24.74 KiB

  • Dataset size : 33.60 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 83


  • Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.

  • Download size : 132.92 KiB

  • Dataset size : 196.42 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 288


  • Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 220.80 KiB

  • Dataset size : 317.02 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 228


  • Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.

  • Download size : 833.88 KiB

  • Dataset size : 1.15 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,047
'train' 31


  • Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.

  • Download size : 174.70 KiB

  • Dataset size : 259.24 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 674


  • Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.

  • Download size : 6.14 KiB

  • Dataset size : 7.56 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 10


  • Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.

  • Download size : 823.85 KiB

  • Dataset size : 1.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,435


  • Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.

  • Download size : 99.43 KiB

  • Dataset size : 118.77 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 100


  • Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.

  • Download size : 202.88 KiB

  • Dataset size : 273.92 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 214


  • Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.

  • Download size : 741.82 KiB

  • Dataset size : 989.46 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 663


  • Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.

  • Download size : 4.66 MiB

  • Dataset size : 6.31 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 950
'test' 989
'train' 4,400


  • Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.

  • Download size : 20.84 MiB

  • Dataset size : 27.97 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,066
'test' 2,287
'train' 23,010


  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.92 MiB

  • Dataset size : 2.12 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.

  • Download size : 747.04 KiB

  • Dataset size : 1.07 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 734
'train' 20


  • Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.

  • Download size : 40.75 MiB

  • Dataset size : 55.54 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,101
'test' 2,101
'train' 22,775


  • Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).

  • Kích thước tải xuống : 4.87 MiB

  • Dataset size : 6.65 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 376
'test' 419
'train' 926


  • Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.

  • Download size : 20.99 MiB

  • Dataset size : 27.77 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 850
'test' 884
'train' 7,289


  • Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1

  • Download size : 2.45 MiB

  • Dataset size : 3.53 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 939
'train' 1,334


  • Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.

  • Download size : 17.58 MiB

  • Dataset size : 25.21 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,234
'test' 1,260
'train' 15,917


  • Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.

  • Download size : 30.93 MiB

  • Dataset size : 42.49 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,957
'test' 2,325
'train' 12,521


  • Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.

  • Download size : 426.33 KiB

  • Dataset size : 636.88 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 296
'train' 20


  • Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).

  • Download size : 6.68 MiB

  • Dataset size : 9.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 617
'test' 684
'train' 2,341


  • Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.

  • Download size : 255.28 KiB

  • Dataset size : 1.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 153
'test' 153
'train' 153


  • Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 119.00 KiB

  • Dataset size : 165.75 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 106
'train' 19


  • Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.

  • Download size : 209.01 KiB

  • Dataset size : 280.72 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 83


  • Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.

  • Download size : 1.92 MiB

  • Dataset size : 2.67 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 433
'test' 518
'train' 1,123


  • Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.

  • Download size : 1.26 MiB

  • Dataset size : 1.79 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2,319


  • Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.

  • Download size : 330.87 KiB

  • Dataset size : 496.00 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 46
'test' 47
'train' 373


  • Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.

  • Download size : 560.08 KiB

  • Dataset size : 859.37 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,046


  • Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.

  • Download size : 90.88 KiB

  • Dataset size : 120.86 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 98


  • Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.

  • Download size : 343.96 KiB

  • Dataset size : 451.57 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 342


  • Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.

  • Download size : 67.85 KiB

  • Dataset size : 83.48 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 158


  • Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).

  • Download size : 16.99 MiB

  • Dataset size : 21.58 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 991
'test' 972
'train' 7,278


  • Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.

  • Download size : 6.24 KiB

  • Dataset size : 7.72 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 10


  • Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.

  • Download size : 1.78 MiB

  • Dataset size : 2.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 865
'train' 2,257


  • Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 18.29 MiB

  • Dataset size : 27.60 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,409
'test' 1,939
'train' 15,696


  • Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 17.68 MiB

  • Dataset size : 26.46 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,890
'test' 1,511
'train' 14,174


  • Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 3.19 MiB

  • Dataset size : 4.78 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 881
'test' 957
'train' 3,412


  • Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.

  • Kích thước tải xuống : 5.92 MiB

  • Dataset size : 8.33 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,073
'test' 1,141
'train' 4,124


  • Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).

  • Download size : 13.51 MiB

  • Dataset size : 18.54 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,887
'test' 1,989
'train' 14,153


  • Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.

  • Download size : 4.04 MiB

  • Dataset size : 4.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,054
'test' 1,006
'train' 1.045


  • Config description : UD_Old_Russian-RNC is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.

  • Download size : 2.95 MiB

  • Dataset size : 4.02 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 648
'train' 422


  • Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.

  • Download size : 14.49 MiB

  • Dataset size : 20.13 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,852
'test' 1,756
'train' 13,336


  • Config description : UD_Old_Turkish-Tonqq is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.

  • Download size : 10.44 KiB

  • Dataset size : 14.01 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 20


  • Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).

  • Download size : 32.05 MiB

  • Dataset size : 43.48 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,456
'test' 1,455
'train' 26,196


  • Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.

  • Download size : 9.43 MiB

  • Dataset size : 12.50 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 599
'test' 600
'train' 4,798


  • Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.

  • Download size : 14.18 MiB

  • Dataset size : 18.96 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,745
'test' 1,727
'train' 13,774


  • Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).

  • Download size : 34.66 MiB

  • Dataset size : 47.62 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,215
'test' 2,215
'train' 17,722


  • Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re

  • Download size : 1.91 MiB

  • Dataset size : 2.52 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.

  • Download size : 14.29 MiB

  • Dataset size : 20.41 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,172
'test' 1,167
'train' 7,018


  • Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).

  • Download size : 14.57 MiB

  • Dataset size : 20.34 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,204
'test' 1,200
'train' 9,615


  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.48 MiB

  • Dataset size : 1.95 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.

  • Download size : 44.38 KiB

  • Dataset size : 65.95 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 50


  • Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0

  • Download size : 48.00 MiB

  • Dataset size : 66.84 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,052
'test' 1,052
'train' 24,121


  • Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.

  • Download size : 16.38 MiB

  • Dataset size : 22.96 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 752
'test' 729
'train' 8,043


  • Config description : SiMoNERo is a medical corpus of contemporary Romanian.

  • Download size : 11.36 MiB

  • Dataset size : 15.68 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 443
'test' 491
'train' 3,747


  • Config description : Russian Universal Dependencies Treebank annotated and converted by Google.

  • Kích thước tải xuống : 8.42 MiB

  • Dataset size : 11.51 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 579
'test' 601
'train' 3,850


  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.78 MiB

  • Dataset size : 2.26 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : Russian data from the SynTagRus corpus.

  • Download size : 97.99 MiB

  • Dataset size : 139.66 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 6,584
'test' 6,491
'train' 48,814


  • Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.

  • Download size : 18.12 MiB

  • Dataset size : 24.32 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 946
'test' 881
'train' 16,045


  • Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.

  • Download size : 414.72 KiB

  • Dataset size : 407.83 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 230


  • Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.

  • Download size : 1.95 MiB

  • Dataset size : 3.14 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,473
'train' 2,524


  • Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).

  • Download size : 5.07 MiB

  • Dataset size : 7.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 655
'test' 545
'train' 3,539


  • Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.

  • Download size : 7.07 MiB

  • Dataset size : 10.04 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 536
'test' 520
'train' 3,328


  • Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.

  • Download size : 216.27 KiB

  • Dataset size : 299.21 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 218


  • Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.

  • Download size : 9.55 MiB

  • Dataset size : 13.87 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,060
'test' 1,061
'train' 8,483


  • Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.

  • Download size : 19.82 MiB

  • Dataset size : 28.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,250
'test' 1,282
'train' 10,903


  • Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.

  • Download size : 2.53 MiB

  • Dataset size : 3.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,110
'train' 2,078


  • Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.

  • Download size : 4.47 KiB

  • Dataset size : 5.58 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 8


  • Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.

  • Download size : 42.16 KiB

  • Dataset size : 65.64 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 100


  • Config description : Spanish data from the AnCora corpus.

  • Download size : 50.23 MiB

  • Dataset size : 66.53 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,654
'test' 1,721
'train' 14,287


  • Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).

  • Download size : 24.86 MiB

  • Dataset size : 36.42 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,400
'test' 426
'train' 14,187


Tách ra ví dụ
'test' 1.000


  • Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.

  • Download size : 79.78 KiB

  • Dataset size : 122.04 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 82
'test' 34
'train' 87


  • Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.

  • Download size : 6.91 MiB

  • Dataset size : 9.18 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,032
'test' 1,035
'train' 3,176


  • Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.

  • Download size : 1.64 MiB

  • Dataset size : 2.13 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.

  • Download size : 8.08 MiB

  • Dataset size : 11.40 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 504
'test' 1,219
'train' 4,303


  • Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.

  • Download size : 58.28 KiB

  • Dataset size : 86.61 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 100


  • Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.

  • Download size : 59.91 KiB

  • Dataset size : 84.14 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 128


  • Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.

  • Download size : 53.91 KiB

  • Dataset size : 76.16 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 94


  • Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.

  • Download size : 394.18 KiB

  • Dataset size : 499.94 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 534


  • Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.

  • Download size : 1.68 MiB

  • Dataset size : 2.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 80
'test' 120
'train' 400


  • Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.

  • Download size : 628.67 KiB

  • Dataset size : 866.20 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 131
'test' 146
'train' 1,051


  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.53 MiB

  • Dataset size : 1.85 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.

  • Download size : 293.55 KiB

  • Dataset size : 371.48 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Split ví dụ
'test' 546


  • Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.

  • Download size : 2.78 MiB

  • Dataset size : 4.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Split ví dụ
'dev' 801
'test' 805
'train' 578


  • Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.

  • Download size : 3.26 MiB

  • Dataset size : 5.09 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Split ví dụ
'dev' 572
'test' 586
'train' 4,274


  • Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.

  • Download size : 6.48 MiB

  • Dataset size : 11.24 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,166
'test' 2.191
'train' 15,476


  • Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.

  • Download size : 12.16 MiB

  • Dataset size : 19.00 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,646
'test' 1,643
'train' 15,398


  • Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)

  • Download size : 12.29 MiB

  • Dataset size : 18.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 622
'test' 924
'train' 14,850


  • Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.

  • Download size : 1.43 MiB

  • Dataset size : 2.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 205
'test' 205
'train' 2,288


  • Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.

  • Download size : 9.07 MiB

  • Dataset size : 13.24 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 979
'test' 979
'train' 7,803


  • Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.

  • Download size : 1.41 MiB

  • Dataset size : 2.02 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2,880


  • Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).

  • Download size : 4.51 MiB

  • Dataset size : 6.70 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 988
'test' 983
'train' 3,664


  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.29 MiB

  • Dataset size : 1.65 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000


  • Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]

  • Download size : 16.54 MiB

  • Dataset size : 21.99 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 672
'test' 892
'train' 5,496


  • Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.

  • Download size : 762.63 KiB

  • Dataset size : 1.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 623
'train' 23


  • Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.

  • Download size : 15.16 MiB

  • Dataset size : 21.57 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 552
'test' 535
'train' 4,043


  • Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.

  • Download size : 3.30 MiB

  • Dataset size : 4.59 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 900
'test' 900
'train' 1,656


  • Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).

  • Download size : 1.96 MiB

  • Dataset size : 2.81 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 800
'test' 800
'train' 1,400


  • Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.

  • Download size : 37.58 KiB

  • Dataset size : 47.36 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 55


  • Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.

  • Download size : 2.28 MiB

  • Dataset size : 3.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 953
'train' 976


  • Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.

  • Download size : 6.56 MiB

  • Dataset size : 8.50 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 249
'test' 277
'train' 1,974


  • Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.

  • Download size : 2.65 MiB

  • Dataset size : 3.78 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 449
'test' 470
'train' 1,188


  • Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.

  • Download size : 1.50 MiB

  • Dataset size : 1.74 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 810


  • Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis

  • Download size : 51.76 KiB

  • Dataset size : 61.70 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 96


  • Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.

  • Download size : 554.64 KiB

  • Dataset size : 767.54 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 318


  • Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).

  • Download size : 302.87 KiB

  • Dataset size : 410.25 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 309