keras-team
diff --git a/‎keras_hub/api/models/__init__.py‎
Lines changed: 9 additions & 0 deletions b/‎keras_hub/api/models/__init__.py‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎keras_hub/api/tokenizers/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎keras_hub/api/tokenizers/__init__.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎keras_hub/src/models/qwen/qwen_attention.py‎
Lines changed: 3 additions & 1 deletion b/‎keras_hub/src/models/qwen/qwen_attention.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎keras_hub/src/models/qwen_moe/__init__.py‎ b/‎keras_hub/src/models/qwen_moe/__init__.py‎
@@ -420,6 +420,15 @@
 from keras_hub.src.models.qwen.qwen_tokenizer import (
     QwenTokenizer as QwenTokenizer,
 )
+from keras_hub.src.models.qwen_moe.qwen_moe_backbone import (
+    QwenMoeBackbone as QwenMoeBackbone,
+)
+from keras_hub.src.models.qwen_moe.qwen_moe_causal_lm import (
+    QwenMoeCausalLM as QwenMoeCausalLM,
+)
+from keras_hub.src.models.qwen_moe.qwen_moe_causal_lm_preprocessor import (
+    QwenMoeCausalLMPreprocessor as QwenMoeCausalLMPreprocessor,
+)
 from keras_hub.src.models.resnet.resnet_backbone import (
     ResNetBackbone as ResNetBackbone,
 )
 
@@ -68,6 +68,9 @@
 from keras_hub.src.models.qwen.qwen_tokenizer import (
     QwenTokenizer as QwenTokenizer,
 )
+from keras_hub.src.models.qwen_moe.qwen_moe_tokenizer import (
+    QwenMoeTokenizer as QwenMoeTokenizer,
+)
 from keras_hub.src.models.roberta.roberta_tokenizer import (
     RobertaTokenizer as RobertaTokenizer,
 )
 
@@ -287,7 +287,9 @@ def _compute_attention(
         if self.use_sliding_window_attention:
             attention_mask = self._mask_sliding_window(
                 attention_mask,
-                cache_update_index=cache_update_index,
+                cache_update_index=cache_update_index
+                if cache_update_index
+                else 0,
             )
         attention_scores = self._masked_softmax(
             attention_scores, attention_mask
Original file line number	Diff line number	Diff line change
`@@ -68,6 +68,9 @@`
`68`	`68`	`from keras_hub.src.models.qwen.qwen_tokenizer import (`
`69`	`69`	`QwenTokenizer as QwenTokenizer,`
`70`	`70`	`)`
	`71`	`+from keras_hub.src.models.qwen_moe.qwen_moe_tokenizer import (`
	`72`	`+ QwenMoeTokenizer as QwenMoeTokenizer,`
	`73`	`+)`
`71`	`74`	`from keras_hub.src.models.roberta.roberta_tokenizer import (`
`72`	`75`	`RobertaTokenizer as RobertaTokenizer,`
`73`	`76`	`)`