Skip to content

Commit 8617d5d

Browse files
committed
Add more recipes
1 parent 5842cef commit 8617d5d

10 files changed

+303
-0
lines changed
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-fr-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-de-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: deu
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-de-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.de
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-fr-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-it-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: ita
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-it-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.it
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: yuiseki/tinyllama-ja-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-ja-wikipedia-summarizer-cnn-dailymail-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: kunishou/cnn-dailymail-27k-ja
6+
dataset_input_field_name: instruction
7+
dataset_context_field_name: input
8+
dataset_output_field_name: output
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 2
15+
train_per_device_train_batch_size: 16
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 1000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
24+
expected_output: "長篠の戦いです。"
25+
-
26+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
27+
expected_output: "リチャード・ニクソンです。"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
target_task: tasks/i18n/fr.md
2+
base_model_id: yuiseki/tinyllama-fr-wikipedia-1.5T-v0.1
3+
model_name: tinyllama-ko-wikipedia-aya-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: CohereForAI/aya_dataset
6+
dataset_input_field_name: inputs
7+
dataset_output_field_name: targets
8+
dataset_filter_field_name: language_code
9+
dataset_filter_field_value: kor
10+
dataset_train_split_seed: 42
11+
dataset_train_split_test_size: 0.2
12+
lora_r: 8
13+
lora_alpha: 16
14+
lora_dropout: 0.05
15+
train_claim_gpu_num: 3
16+
train_per_device_train_batch_size: 8
17+
train_gradient_accumulation_steps: 4
18+
train_num_train_epochs: 4
19+
train_max_steps: 1000
20+
train_fp16: True
21+
inference_max_new_tokens: 32
22+
evaluations:
23+
-
24+
prompt: "火縄銃の威力が全国に知られる事となった、1575年に織田・徳川連合軍が鉄砲隊を用いて武田勝頼率いる騎馬隊を破った戦いを何というでしょう?"
25+
expected_output: "長篠の戦いです。"
26+
-
27+
prompt: "ベトナム戦争終結や米ソ戦略兵器削減交渉などを進めたものの、1974年にウォーターゲート事件の責任をとって辞任したアメリカの第37代大統領は誰でしょう?"
28+
expected_output: "リチャード・ニクソンです。"
29+
-
30+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
31+
expected_output: "アメリカです。"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-ko-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.ko
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-rm-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.rm
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-sq-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.sq
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,30 @@
1+
target_task: tasks/i18n/ja.md
2+
base_model_id: TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T
3+
model_name: tinyllama-sr-wikipedia-1.5T-v0.1
4+
output_base_dir: /data/output
5+
dataset_id: wikimedia/wikipedia
6+
dataset_load_config: 20231101.sr
7+
dataset_input_field_name: title
8+
dataset_output_field_name: text
9+
dataset_train_split_seed: 42
10+
dataset_train_split_test_size: 0.2
11+
lora_r: 8
12+
lora_alpha: 16
13+
lora_dropout: 0.05
14+
train_claim_gpu_num: 4
15+
train_per_device_train_batch_size: 8
16+
train_gradient_accumulation_steps: 4
17+
train_num_train_epochs: 4
18+
train_max_steps: 2000
19+
train_fp16: True
20+
inference_max_new_tokens: 32
21+
evaluations:
22+
-
23+
prompt: "2つ以上の文字を組み合わせて図案化したもののことで、特にルイ・ヴィトンのものが知られるのは何でしょう?"
24+
expected_output: "モノグラム"
25+
-
26+
prompt: "幾つかの布切れを縫いあわせ、飾りや模様を作る手芸方法を何というでしょう?"
27+
expected_output: "パッチワーク"
28+
-
29+
prompt: "格闘家ボブ・サップの出身国はどこでしょう?"
30+
expected_output: "アメリカ"

0 commit comments

Comments
 (0)