fix jax implementation

Jaan Altosaar · Jaan Altosaar · commit f049960c295b · 2021-05-25T12:18:10.000-04:00
diff --git a/README.md b/README.md
@@ -36,10 +36,12 @@ step:   30000   train elbo: -98.70
 step:   30000           valid elbo: -103.76     valid log p(x): -97.71
 ```
 
-Using jax:
+Using jax (anaconda environment is in `environment-jax.yml`):
 ```
-Step 0         	Validation ELBO estimate: -507.485	Validation log p(x) estimate: -507.485
-Step 10000     	Validation ELBO estimate: -152.695	Validation log p(x) estimate: -152.695
-Step 20000     	Validation ELBO estimate: -150.413	Validation log p(x) estimate: -150.413
-Step 30000     	Validation ELBO estimate: -150.529	Validation log p(x) estimate: -150.529
+Step 0          Train ELBO estimate: -565.785   Validation ELBO estimate: -565.775      Validation log p(x) estimate: -565.775  Speed: 3813003636 examples/s
+Step 10000      Train ELBO estimate: -99.048    Validation ELBO estimate: -105.412      Validation log p(x) estimate: -105.412  Speed: 134   examples/s
+Step 20000      Train ELBO estimate: -108.399   Validation ELBO estimate: -105.191      Validation log p(x) estimate: -105.191  Speed: 140   examples/s
+Step 30000      Train ELBO estimate: -100.839   Validation ELBO estimate: -105.404      Validation log p(x) estimate: -105.404  Speed: 139   examples/s
+Step 40000      Train ELBO estimate: -97.761    Validation ELBO estimate: -105.382      Validation log p(x) estimate: -105.382  Speed: 139   examples/s
+Step 50000      Train ELBO estimate: -98.228    Validation ELBO estimate: -105.718      Validation log p(x) estimate: -105.718  Speed: 139   examples/s
 ```
diff --git a/environment-jax.yml b/environment-jax.yml
@@ -1,4 +1,4 @@
-name: jax
+name: /scratch/gpfs/altosaar/environment-jax
 channels:
   - defaults
 dependencies:
@@ -11,7 +11,6 @@ dependencies:
   - libstdcxx-ng=9.1.0=hdf63c60_0
   - ncurses=6.2=he6710b0_1
   - openssl=1.1.1k=h27cfd23_0
-  - pip=21.1.1=py39h06a4308_0
   - python=3.9.5=hdb3f193_3
   - readline=8.1=h27cfd23_0
   - setuptools=52.0.0=py39h06a4308_0
@@ -36,25 +35,26 @@ dependencies:
     - flatbuffers==1.12
     - future==0.18.2
     - gast==0.4.0
-    - google-auth==1.30.0
+    - google-auth==1.30.1
     - google-auth-oauthlib==0.4.4
     - google-pasta==0.2.0
     - googleapis-common-protos==1.53.0
-    - grpcio==1.34.1
+    - grpcio==1.38.0
     - h5py==3.1.0
     - idna==2.10
     - jax==0.2.13
-    - jaxlib==0.1.67
+    - jaxlib==0.1.67+cuda111
     - jmp==0.0.2
-    - keras-nightly==2.5.0.dev2021032900
+    - keras-nightly==2.6.0.dev2021052500
     - keras-preprocessing==1.1.2
     - markdown==3.3.4
     - numpy==1.19.5
     - oauthlib==3.1.0
     - opt-einsum==3.3.0
-    - optax==0.0.7
+    - optax==0.0.6
+    - pip==21.1.2
     - promise==2.3
-    - protobuf==3.17.0
+    - protobuf==3.17.1
     - pyasn1==0.4.8
     - pyasn1-modules==0.2.8
     - requests==2.25.1
@@ -63,19 +63,19 @@ dependencies:
     - scipy==1.6.3
     - six==1.15.0
     - tabulate==0.8.9
-    - tensorboard==2.5.0
+    - tb-nightly==2.6.0a20210525
     - tensorboard-data-server==0.6.1
     - tensorboard-plugin-wit==1.8.0
-    - tensorflow==2.5.0
     - tensorflow-datasets==4.3.0
-    - tensorflow-estimator==2.5.0
     - tensorflow-metadata==1.0.0
     - termcolor==1.1.0
-    - tfp-nightly==0.14.0.dev20210521
+    - tf-estimator-nightly==2.5.0.dev2021032601
+    - tf-nightly==2.6.0.dev20210525
+    - tfp-nightly==0.14.0.dev20210525
     - toolz==0.11.1
-    - tqdm==4.60.0
+    - tqdm==4.61.0
     - typing-extensions==3.7.4.3
     - urllib3==1.26.4
     - werkzeug==2.0.1
     - wrapt==1.12.1
-prefix: /home/jaan/miniconda3/envs/jax
+prefix: /scratch/gpfs/altosaar/environment-jax
diff --git a/train_variational_autoencoder_jax.py b/train_variational_autoencoder_jax.py
@@ -2,6 +2,7 @@
 
 Largely follows https://github.com/deepmind/dm-haiku/blob/master/examples/vae.py"""
 
+import time
 import argparse
 import pathlib
 from calendar import c
@@ -26,22 +27,16 @@
 
 
 def add_args(parser):
-    parser.add_argument("--latent_size", type=int, default=10)
+    parser.add_argument("--latent_size", type=int, default=128)
     parser.add_argument("--hidden_size", type=int, default=512)
-    parser.add_argument("--variational", choices=["flow", "mean-field"])
-    parser.add_argument("--flow_depth", type=int, default=2)
     parser.add_argument("--learning_rate", type=float, default=0.001)
     parser.add_argument("--batch_size", type=int, default=128)
     parser.add_argument("--training_steps", type=int, default=100000)
     parser.add_argument("--log_interval", type=int, default=10000)
-    parser.add_argument("--early_stopping_interval", type=int, default=5)
-    parser.add_argument("--n_samples", type=int, default=128)
-    parser.add_argument(
-        "--use_gpu", default=False, action=argparse.BooleanOptionalAction
-    )
+    parser.add_argument("--num_eval_samples", type=int, default=128)
+    parser.add_argument("--gpu", default=False, action=argparse.BooleanOptionalAction)
     parser.add_argument("--random_seed", type=int, default=42)
     parser.add_argument("--train_dir", type=pathlib.Path, default="/tmp")
-    parser.add_argument("--data_dir", type=pathlib.Path, default="/tmp")
 
 
 def load_dataset(
@@ -78,8 +73,8 @@ def __init__(
             [
                 hk.Linear(self._hidden_size),
                 jax.nn.relu,
-                # hk.Linear(self._hidden_size),
-                # jax.nn.relu,
+                hk.Linear(self._hidden_size),
+                jax.nn.relu,
                 hk.Linear(np.prod(self._output_shape)),
                 hk.Reshape(self._output_shape, preserve_dims=2),
             ]
@@ -106,8 +101,8 @@ def __init__(self, latent_size: int, hidden_size: int):
                 hk.Flatten(),
                 hk.Linear(self._hidden_size),
                 jax.nn.relu,
-                # hk.Linear(self._hidden_size),
-                # jax.nn.relu,
+                hk.Linear(self._hidden_size),
+                jax.nn.relu,
                 hk.Linear(self._latent_size * 2),
             ]
         )
@@ -187,10 +182,10 @@ def objective_fn(params: hk.Params, rng_key: PRNGKey, batch: Batch) -> jnp.ndarr
     params = model_and_variational.init(
         next(rng_seq), np.zeros((1, *MNIST_IMAGE_SHAPE))
     )
-    optimizer = optax.adam(args.learning_rate)
+    optimizer = optax.rmsprop(args.learning_rate)
     opt_state = optimizer.init(params)
 
-    # @jax.jit
+    @jax.jit
     def train_step(
         params: hk.Params, rng_key: PRNGKey, opt_state: optax.OptState, batch: Batch
     ) -> Tuple[hk.Params, optax.OptState]:
@@ -245,24 +240,38 @@ def evaluate(
     )
     test_ds = load_dataset(tfds.Split.TEST, args.batch_size, args.random_seed)
 
+    def print_progress(step: int, examples_per_sec: float):
+        valid_ds = load_dataset(
+            tfds.Split.VALIDATION, args.batch_size, args.random_seed
+        )
+        elbo, log_p_x = evaluate(valid_ds, params, rng_seq)
+        train_elbo = (
+            -objective_fn(params, next(rng_seq), next(train_ds)) / args.batch_size
+        )
+        print(
+            f"Step {step:<10d}\t"
+            f"Train ELBO estimate: {train_elbo:<5.3f}\t"
+            f"Validation ELBO estimate: {elbo:<5.3f}\t"
+            f"Validation log p(x) estimate: {log_p_x:<5.3f}\t"
+            f"Speed: {examples_per_sec:<5.0f} examples/s"
+        )
+
+    t0 = time.time()
     for step in range(args.training_steps):
-        params, opt_state = train_step(params, next(rng_seq), opt_state, next(train_ds))
         if step % args.log_interval == 0:
-            valid_ds = load_dataset(
-                tfds.Split.VALIDATION, args.batch_size, args.random_seed
-            )
-            elbo, log_p_x = evaluate(valid_ds, params, rng_seq)
-            train_elbo = (
-                -objective_fn(params, next(rng_seq), next(train_ds)) / args.batch_size
-            )
-            print(
-                f"Step {step:<10d}\t"
-                f"Train ELBO estimate: {train_elbo:<5.3f}\t"
-                f"Validation ELBO estimate: {elbo:<5.3f}\t"
-                f"Validation log p(x) estimate: {log_p_x:<5.3f}"
-            )
+            examples_per_sec = args.log_interval / (time.time() - t0)
+            print_progress(step, examples_per_sec)
+            t0 = time.time()
+        params, opt_state = train_step(params, next(rng_seq), opt_state, next(train_ds))
+
+    test_ds = load_dataset(tfds.Split.TEST, args.batch_size, args.random_seed)
+    elbo, log_p_x = evaluate(test_ds, params, rng_seq)
+    print(
+        f"Step {step:<10d}\t"
+        f"Test ELBO estimate: {elbo:<5.3f}\t"
+        f"Test log p(x) estimate: {log_p_x:<5.3f}\t"
+    )
 
 
 if __name__ == "__main__":
     main()
-