Skip to content

Commit 83aac05

Browse files
committed
Add more i18n
1 parent 8617d5d commit 83aac05

19 files changed

+436
-8
lines changed

recipes/A5000_24GB_x8/i18n-de-wikipedia-aya.yaml

+1-1
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
target_task: tasks/i18n/fr.md
2-
base_model_id: yuiseki/tinyllama-fr-wikipedia-1.5T-v0.1
2+
base_model_id: yuiseki/tinyllama-de-wikipedia-1.5T-v0.1
33
model_name: tinyllama-de-wikipedia-aya-1.5T-v0.1
44
output_base_dir: /data/output
55
dataset_id: CohereForAI/aya_dataset

recipes/A5000_24GB_x8/i18n-it-wikipedia-aya.yaml

+1-1
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
target_task: tasks/i18n/fr.md
2-
base_model_id: yuiseki/tinyllama-fr-wikipedia-1.5T-v0.1
2+
base_model_id: yuiseki/tinyllama-it-wikipedia-1.5T-v0.1
33
model_name: tinyllama-it-wikipedia-aya-1.5T-v0.1
44
output_base_dir: /data/output
55
dataset_id: CohereForAI/aya_dataset

recipes/A5000_24GB_x8/i18n-ko-wikipedia-aya.yaml

+1-1
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
target_task: tasks/i18n/fr.md
2-
base_model_id: yuiseki/tinyllama-fr-wikipedia-1.5T-v0.1
2+
base_model_id: yuiseki/tinyllama-ko-wikipedia-1.5T-v0.1
33
model_name: tinyllama-ko-wikipedia-aya-1.5T-v0.1
44
output_base_dir: /data/output
55
dataset_id: CohereForAI/aya_dataset
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-mg-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-mg-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: plt
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-mg-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.mg
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-ml-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-ml-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: mal
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-ml-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.ml
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-ms-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-ms-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: zsm
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-ms-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.ms
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-si-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-si-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: sin
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-si-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.si
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-sq-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-sq-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: als
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-sr-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-sr-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: srp
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-ta-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-ta-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: tam
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-ta-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.ta
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"

0 commit comments

Comments
 (0)