keras-team · kanpuriyanawab · Mar 23, 2025 · Mar 23, 2025 · Mar 27, 2025 · Mar 28, 2025
diff --git a/keras_hub/api/models/__init__.py b/keras_hub/api/models/__init__.py
@@ -417,6 +417,11 @@
 from keras_hub.src.models.qwen.qwen_tokenizer import (
     QwenTokenizer as Qwen2Tokenizer,
 )
+from keras_hub.src.models.qwen_moe.qwen_moe_backbone import QwenMoeBackbone
+from keras_hub.src.models.qwen_moe.qwen_moe_causal_lm import QwenMoeCausalLM
+from keras_hub.src.models.qwen_moe.qwen_moe_causal_lm_preprocessor import (
+    QwenMoeCausalLMPreprocessor,
+)
 from keras_hub.src.models.qwen.qwen_tokenizer import (
     QwenTokenizer as QwenTokenizer,
 )

diff --git a/keras_hub/src/models/qwen/qwen_attention.py b/keras_hub/src/models/qwen/qwen_attention.py
@@ -287,7 +287,9 @@ def _compute_attention(
         if self.use_sliding_window_attention:
             attention_mask = self._mask_sliding_window(
                 attention_mask,
-                cache_update_index=cache_update_index,
+                cache_update_index=cache_update_index
+                if cache_update_index
+                else 0,
             )
         attention_scores = self._masked_softmax(
             attention_scores, attention_mask

diff --git a/keras_hub/src/models/qwen_moe/__init__.py b/keras_hub/src/models/qwen_moe/__init__.py