weight matching complete

heyyanshuman · heyyanshuman · commit d391cd232d22 · 2025-03-29T13:34:45.000+05:30
diff --git a/keras_hub/src/models/qwen_moe/qwen_moe_decoder.py b/keras_hub/src/models/qwen_moe/qwen_moe_decoder.py
@@ -63,12 +63,6 @@ def build(self, decoder_sequence_shape):
             )
         )
 
-        self._feedforward_layernorm = QwenLayerNorm(
-            epsilon=self.layer_norm_epsilon,
-            dtype=self.dtype_policy,
-            name="feedforward_layernorm",
-        )
-        self._feedforward_layernorm.build(decoder_sequence_shape)
         self.activation = keras.activations.get(self.activation_fn)
         self.built = True
 
@@ -201,7 +195,7 @@ def call(self, hidden_states):
                 final_hidden_states, top_x[:, None], updated_values
             )
 
-        shared_expert_output = self.shared_expert(hidden_states)
+        shared_expert_output = self.shared_expert_dense(hidden_states)
         shared_expert_output = (
             ops.sigmoid(self.shared_expert_gate_dense(hidden_states))
             * shared_expert_output
diff --git a/tools/checkpoint_conversion/convert_qwen_moe_checkpoints.py b/tools/checkpoint_conversion/convert_qwen_moe_checkpoints.py
@@ -15,7 +15,8 @@
 torch.set_default_device(device)
 
 from keras import ops  # noqa: E402
-from transformers import AutoModelForCausalLM, AutoTokenizer  # noqa: E402
+from transformers import AutoModelForCausalLM  # noqa: E402
+from transformers import AutoTokenizer  # noqa: E402
 
 import keras_hub  # noqa: E402
 

Original file line number	Diff line number	Diff line change
`@@ -63,12 +63,6 @@ def build(self, decoder_sequence_shape):`
`63`	`63`	`)`
`64`	`64`	`)`
`65`	`65`
`66`		`- self._feedforward_layernorm = QwenLayerNorm(`
`67`		`- epsilon=self.layer_norm_epsilon,`
`68`		`- dtype=self.dtype_policy,`
`69`		`- name="feedforward_layernorm",`
`70`		`- )`
`71`		`- self._feedforward_layernorm.build(decoder_sequence_shape)`
`72`	`66`	`self.activation = keras.activations.get(self.activation_fn)`
`73`	`67`	`self.built = True`
`74`	`68`
`@@ -201,7 +195,7 @@ def call(self, hidden_states):`
`201`	`195`	`final_hidden_states, top_x[:, None], updated_values`
`202`	`196`	`)`
`203`	`197`
`204`		`- shared_expert_output = self.shared_expert(hidden_states)`
	`198`	`+ shared_expert_output = self.shared_expert_dense(hidden_states)`
`205`	`199`	`shared_expert_output = (`
`206`	`200`	`ops.sigmoid(self.shared_expert_gate_dense(hidden_states))`
`207`	`201`	`* shared_expert_output`