wmt18

Tài liệu tham khảo:

cs-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/cs-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 2983
'train' 11046024
'validation' 3005
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"cs",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}

de-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/de-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 2998
'train' 42271874
'validation' 3004
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"de",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}

et-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/et-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 2175873
'validation' 2000
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"et",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}

fi-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/fi-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 3000
'train' 3280600
'validation' 6004
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"fi",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}

kk-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/kk-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 0
'train' 0
'validation' 0
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"kk",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}

ru-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/ru-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 3000
'train' 36858512
'validation' 3001
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"ru",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}

tr-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/tr-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 3000
'train' 205756
'validation' 3007
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"tr",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}

zh-en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:wmt18/zh-en')
  • Sự miêu tả :
Translate dataset based on the data from statmt.org.

Versions exists for the different years using a combination of multiple data
sources
. The base `wmt_translate` allows you to create your own config to choose
your own data
/language pair by creating a custom `datasets.translate.wmt.WmtConfig`.


config
= datasets.wmt.WmtConfig(
    version
="0.0.1",
    language_pair
=("fr", "de"),
    subsets
={
        datasets
.Split.TRAIN: ["commoncrawl_frde"],
        datasets
.Split.VALIDATION: ["euelections_dev2019"],
   
},
)
builder
= datasets.builder("wmt_translate", config=config)
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.0.0
  • Chia tách :
Tách ra Ví dụ
'test' 3981
'train' 25160346
'validation' 2001
  • Đặc trưng :
{
   
"translation": {
       
"languages": [
           
"zh",
           
"en"
       
],
       
"id": null,
       
"_type": "Translation"
   
}
}