WIP

yuiseki · yuiseki · commit 5984454b79f5 · 2024-04-08T08:27:28.000+09:00
diff --git a/recipes/A5000_24GB_x8/i18n-bn-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-bn-wikipedia.yaml
@@ -11,11 +11,9 @@ lora_r: 8
 lora_alpha: 16
 lora_dropout: 0.05
 train_claim_gpu_num: 4
-train_per_device_train_batch_size: 8
-train_gradient_accumulation_steps: 4
-train_num_train_epochs: 4
-train_max_steps: 2000
-train_fp16: True
+train_per_device_train_batch_size: 4
+train_gradient_accumulation_steps: 64
+train_num_train_epochs: 2
 inference_max_new_tokens: 32
 evaluations:
   -
diff --git a/recipes/A5000_24GB_x8/i18n-es-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-es-wikipedia.yaml
@@ -4,8 +4,7 @@ model_name: tinyllama-es-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.es
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
diff --git a/recipes/A5000_24GB_x8/i18n-fr-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-fr-wikipedia.yaml
@@ -4,8 +4,7 @@ model_name: tinyllama-fr-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.fr
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
diff --git a/recipes/A5000_24GB_x8/i18n-it-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-it-wikipedia.yaml
@@ -4,8 +4,7 @@ model_name: tinyllama-it-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.it
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
diff --git a/recipes/A5000_24GB_x8/i18n-ja-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-ja-wikipedia.yaml
@@ -4,16 +4,15 @@ model_name: tinyllama-ja-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.ja
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
 lora_alpha: 16
 lora_dropout: 0.05
 train_claim_gpu_num: 4
 train_per_device_train_batch_size: 4
-train_gradient_accumulation_steps: 64
+train_gradient_accumulation_steps: 16
 train_num_train_epochs: 2
 inference_max_new_tokens: 32
 evaluations:
diff --git a/recipes/A5000_24GB_x8/i18n-jv-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-jv-wikipedia.yaml
@@ -11,11 +11,9 @@ lora_r: 8
 lora_alpha: 16
 lora_dropout: 0.05
 train_claim_gpu_num: 4
-train_per_device_train_batch_size: 8
-train_gradient_accumulation_steps: 4
-train_num_train_epochs: 4
-train_max_steps: 2000
-train_fp16: True
+train_per_device_train_batch_size: 4
+train_gradient_accumulation_steps: 64
+train_num_train_epochs: 2
 inference_max_new_tokens: 32
 evaluations:
   -
diff --git a/recipes/A5000_24GB_x8/i18n-ko-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-ko-wikipedia.yaml
@@ -4,8 +4,7 @@ model_name: tinyllama-ko-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.ko
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
diff --git a/recipes/A5000_24GB_x8/i18n-mg-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-mg-wikipedia.yaml
@@ -4,8 +4,7 @@ model_name: tinyllama-mg-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.mg
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
diff --git a/recipes/A5000_24GB_x8/i18n-ru-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-ru-wikipedia.yaml
@@ -4,8 +4,7 @@ model_name: tinyllama-ru-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.ru
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
diff --git a/recipes/A5000_24GB_x8/i18n-vi-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-vi-wikipedia.yaml
@@ -12,7 +12,7 @@ lora_alpha: 16
 lora_dropout: 0.05
 train_claim_gpu_num: 4
 train_per_device_train_batch_size: 4
-train_gradient_accumulation_steps: 64
+train_gradient_accumulation_steps: 16
 train_num_train_epochs: 2
 inference_max_new_tokens: 32
 evaluations:
diff --git a/recipes/A5000_24GB_x8/i18n-zh-wikipedia.yaml b/recipes/A5000_24GB_x8/i18n-zh-wikipedia.yaml
@@ -4,14 +4,13 @@ model_name: tinyllama-zh-wikipedia-1.5T-v0.1
 output_base_dir: /data/output
 dataset_id: wikimedia/wikipedia
 dataset_load_config: 20231101.zh
-dataset_input_field_name: title
-dataset_output_field_name: text
+dataset_input_field_name: text
 dataset_train_split_seed: 42
 dataset_train_split_test_size: 0.2
 lora_r: 8
 lora_alpha: 16
 lora_dropout: 0.05
-train_claim_gpu_num: 3
+train_claim_gpu_num: 4
 train_per_device_train_batch_size: 4
 train_gradient_accumulation_steps: 64
 train_num_train_epochs: 2
diff --git a/src/train.py b/src/train.py
@@ -113,6 +113,13 @@ def prepare_train_data(dataset_id):
     if "dataset_load_config" in train_config:
         dataset_load_config = train_config["dataset_load_config"]
         data = load_dataset(dataset_id, dataset_load_config, split="train", num_proc=32)
+        if (
+            dataset_load_config == "20231101.ja"
+            or dataset_load_config == "20231101.vi"
+            or dataset_load_config == "20231101.es"
+            or dataset_load_config == "20231101.de"
+        ):
+            data = data.filter(lambda item, idx: idx % 3 == 0, with_indices=True)
     else:
         data = load_dataset(dataset_id, split="train", num_proc=32)
 
@@ -203,6 +210,8 @@ def load_model_and_tokenizer(model_id):
         torch_dtype=torch.float16,
         # Trust remote code
         trust_remote_code=True,
+        # Set low cpu mem usage
+        low_cpu_mem_usage=True,
         # Set device map to auto
         # device_map="auto",
         device_map={"": PartialState().process_index},