orbax to reg checkpointer conversion #1246

lkolluru05 · 2025-06-06T20:56:21Z

Command

Orbax Emergency test:

`axlearn gcp bundle --name=$NAME
--bundler_spec=allow_dirty=True
--bundler_type=artifactregistry
--bundler_spec=dockerfile=Dockerfile
--bundler_spec=image=tpu
--bundler_spec=target=tpu

axlearn gcp launch run --cluster=stoelinga-axlearn
--runner_name gke_tpu_single
--name=$NAME
--instance_type=tpu-v6e-16
--host_mount_spec=name=tmp,host_path=/tmp,mount_path=/host-tmp
--num_replicas=3
--bundler_spec=allow_dirty=True
--bundler_type=artifactregistry --bundler_spec=image=tpu
--bundler_spec=dockerfile=Dockerfile --bundler_spec=target=tpu
-- python3 -m axlearn.common.launch_trainer_main
--init_module=axlearn.common.checkpointer_orbax_emergency:local_ckpt_dir=/host-tmp/checkpoints
--module=text.gpt.c4_trainer
--config=fuji-7B-v2-flash-orbaxem
--trainer_dir=$OUTPUT_DIR
--data_dir=gs://axlearn-public/tensorflow_datasets
--jax_backend=tpu
--mesh_selector=tpu-v6e-16
--trace_at_steps=3`

Orbax test

`axlearn gcp bundle --name=$NAME
--bundler_spec=allow_dirty=True
--bundler_type=artifactregistry
--bundler_spec=dockerfile=Dockerfile
--bundler_spec=image=tpu
--bundler_spec=target=tpu

axlearn gcp launch run --cluster=lkolluru-axlearn
--runner_name=gke_tpu_pathways
--name=$NAME
--instance_type=tpu-v6e-16
--num_replicas=1
--bundler_spec=allow_dirty=True
--bundler_type=artifactregistry --bundler_spec=image=tpu
--bundler_spec=dockerfile=Dockerfile --bundler_spec=target=tpu
-- python3 -m axlearn.common.launch_trainer_main
--init_module=axlearn.common.checkpointer_orbax
--module=text.gpt.c4_trainer
--config=fuji-7B-v2-flash-orbax
--trainer_dir=$OUTPUT_DIR
--data_dir=gs://axlearn-public/tensorflow_datasets
--jax_backend=proxy
--mesh_selector=tpu-v6e-16
--trace_at_steps=3`

axlearn/cloud/gcp/jobset_utils.py

axlearn/common/checkpointer_orbax_emergency.py

findmyway · 2025-06-11T06:17:19Z

axlearn/common/checkpointer_orbax_emergency.py

+        logging.info("Saving an AXLearn tensorstore from the restored Orbax state...")
+        save_axlearn_checkpoint(step, restored_state, cfg.dir, cfg.name)


If I understand it correctly, here we're still using an online approach to do the checkpoint conversion. This means that we have to allocate the same resource (or at least a slice) of training stage for each checkpoint conversion.

I'm wondering if we can do the conversion offline on a CPU only node with a large memory.

orbax to reg checkpointer conversion

a4c641c

samos123 reviewed Jun 6, 2025

View reviewed changes

axlearn/cloud/gcp/jobset_utils.py Outdated Show resolved Hide resolved

samos123 reviewed Jun 6, 2025

View reviewed changes

axlearn/cloud/gcp/jobset_utils.py Outdated Show resolved Hide resolved

samos123 reviewed Jun 6, 2025

View reviewed changes

axlearn/common/checkpointer_orbax_emergency.py Outdated Show resolved Hide resolved

comments addressed

647d9ed

findmyway reviewed Jun 11, 2025

View reviewed changes

working code for orbax testing

809557c

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

orbax to reg checkpointer conversion #1246

orbax to reg checkpointer conversion #1246

Uh oh!

lkolluru05 commented Jun 6, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

findmyway Jun 11, 2025

Uh oh!

Uh oh!

		logging.info("Saving an AXLearn tensorstore from the restored Orbax state...")
		save_axlearn_checkpoint(step, restored_state, cfg.dir, cfg.name)

orbax to reg checkpointer conversion #1246

Are you sure you want to change the base?

orbax to reg checkpointer conversion #1246

Uh oh!

Conversation

lkolluru05 commented Jun 6, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

findmyway Jun 11, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

lkolluru05 commented Jun 6, 2025 •

edited

Loading