feat: 添加mla_cache

onenewcode · onenewcode · commit e44cff1fa1ee · 2025-02-24T16:14:29.000+08:00
diff --git a/operators/src/attention_mla/operator.rs b/operators/src/attention_mla/operator.rs
@@ -1,7 +1,7 @@
 use super::{args::Meta, Args, AttentionMLA};
 use crate::{
-    dyn_, fuesd_softmax, get_static, mat_mul, rearrange, ByteOf, Hardware, LaunchError, QueueAlloc,
-    SchemeError, TensorLayout, Workspace, WorkspaceCollector,
+    fuesd_softmax, get_static, mat_mul, rearrange, ByteOf, Hardware, LaunchError, QueueAlloc,
+    SchemeError, TensorLayout, Workspace,
 };
 use ndarray_layout::ArrayLayout;
 use std::marker::PhantomData;
@@ -94,16 +94,13 @@ where
         let &[nh_sa, dv_sa, dkv_sa] = absorb_layout.strides() else {
             unreachable!()
         };
-        let &[nh_so, seq_so, dv_so] = o_layout.strides() else {
-            unreachable!()
-        };
+
         let ele = dt.nbytes();
         get_static! {
             nh      seq     dkv     dr
             nh_skv  att_skv  dkv_skv
             nh_skr  att_skr  dr_skr
             nh_sa   dv_sa    dkv_sa
-            nh_so   seq_so   dv_so
             dv      att
         };
 
@@ -141,7 +138,7 @@ where
             workspace,
             queue_alloc,
         )?;
-       
+
         self.mat_mul.launch(
             &mat_mul::Args {
                 c_layout: att_w_layout.clone(),
diff --git a/operators/src/attention_mla_cached/args.rs b/operators/src/attention_mla_cached/args.rs
@@ -0,0 +1,103 @@
+use crate::{
+    fuesd_softmax::AttnMask,
+    utils::{dim_distinct, rank_error, type_distinct},
+    ConstPtr, Hardware, MaybeDyn, MutPtr, SchemeError, TensorLayout,
+};
+use digit_layout::DigitLayout;
+
+pub struct Args<H: Hardware> {
+    // q传入的是是吸收后的
+    pub q_layout: TensorLayout,
+    pub q_base: MutPtr<H>,
+
+    pub kv_layout: TensorLayout,
+    pub kv_base: ConstPtr<H>,
+
+    pub absorb_layout: TensorLayout,
+    pub absorb_base: ConstPtr<H>,
+
+    pub qr_layout: TensorLayout,
+    pub qr_base: ConstPtr<H>,
+
+    pub kr_layout: TensorLayout,
+    pub kr_base: ConstPtr<H>,
+
+    pub o_layout: TensorLayout,
+    pub o_base: MutPtr<H>,
+    pub kv_cache_layout: TensorLayout,
+    pub kv_cache_base: MutPtr<H>,
+
+    pub kr_cache_layout: TensorLayout,
+    pub kr_cache_base: MutPtr<H>,
+
+    pub mask: AttnMask,
+    pub pos: MaybeDyn<usize>,
+}
+
+pub(super) struct Meta {
+    pub dt: DigitLayout,
+    pub nh: MaybeDyn<usize>,
+    pub seq: MaybeDyn<usize>,
+    pub att: MaybeDyn<usize>,
+    pub dkv: MaybeDyn<usize>,
+    pub dv: MaybeDyn<usize>,
+    pub dr: MaybeDyn<usize>,
+}
+
+impl<H: Hardware> Args<H> {
+    pub(super) fn meta(&self) -> Result<Meta, SchemeError> {
+        let Self {
+            q_layout,
+            kv_layout,
+            absorb_layout,
+            qr_layout,
+            kr_layout,
+            o_layout,
+            kv_cache_layout,
+            kr_cache_layout,
+            ..
+        } = self;
+
+        let &[nh_q, seq_q, dkv_q] = q_layout.shape() else {
+            return Err(rank_error("q", 3, q_layout.ndim()));
+        };
+
+        let &[nh_kv, attn_kv, dkv_kv] = kv_layout.shape() else {
+            return Err(rank_error("kv", 3, kv_layout.ndim()));
+        };
+        let &[nh_a, dv_a, dkv_a] = absorb_layout.shape() else {
+            return Err(rank_error("absorb", 3, absorb_layout.ndim()));
+        };
+        let &[nh_qr, seq_qr, dr_qr] = qr_layout.shape() else {
+            return Err(rank_error("qr", 3, qr_layout.ndim()));
+        };
+        let &[nh_kr, att_kr, dr_kr] = kr_layout.shape() else {
+            return Err(rank_error("kr", 3, kr_layout.ndim()));
+        };
+        let &[nh_o, seq_o, dv_o] = o_layout.shape() else {
+            return Err(rank_error("o", 3, o_layout.ndim()));
+        };
+        let &[nh_kvc, _buf, dkv_kvc] = kv_cache_layout.shape() else {
+            return Err(rank_error("k_cache", 3, kv_cache_layout.ndim()));
+        };
+        let &[nh_krc, _buf, dr_krc] = kr_cache_layout.shape() else {
+            return Err(rank_error("v_cache", 3, kr_cache_layout.ndim()));
+        };
+
+        Ok(Meta {
+            dt: type_distinct(&[
+                q_layout.dt(),
+                kv_layout.dt(),
+                qr_layout.dt(),
+                kr_layout.dt(),
+                o_layout.dt(),
+            ])?,
+            nh: dim_distinct(&[nh_q, nh_kv, nh_a, nh_qr, nh_kr, nh_o, nh_krc, nh_kvc])?,
+            seq: dim_distinct(&[seq_q, seq_o, seq_qr])?,
+            att: dim_distinct(&[attn_kv, att_kr])?,
+            dkv: dim_distinct(&[dkv_a, dkv_kv, dkv_q, dkv_kvc])?,
+            dv: dim_distinct(&[dv_a, dv_o])?,
+            dr: dim_distinct(&[dr_kr, dr_qr, dr_krc])?,
+        })
+    }
+}
diff --git a/operators/src/attention_mla_cached/common_cpu.rs b/operators/src/attention_mla_cached/common_cpu.rs
@@ -0,0 +1 @@
+﻿impl_op!(common_cpu, Cpu);
diff --git a/operators/src/attention_mla_cached/cuda.rs b/operators/src/attention_mla_cached/cuda.rs
@@ -0,0 +1 @@
+impl_op!(cuda, Gpu);
diff --git a/operators/src/attention_mla_cached/infini.rs b/operators/src/attention_mla_cached/infini.rs
@@ -0,0 +1 @@
+﻿impl_op!(infini, Device);
diff --git a/operators/src/attention_mla_cached/mod.rs b/operators/src/attention_mla_cached/mod.rs
@@ -0,0 +1,25 @@
+mod args;
+mod operator;
+
+pub use args::Args;
+
+crate::op_trait!(AttentionMLACached);
+
+macro_rules! impl_op {
+    ($dev:ident, $proc:ident) => {
+        pub type Operator = super::operator::Operator<
+            crate::$dev::$proc,
+            crate::rearrange::$dev::Operator,
+            crate::attention::$dev::Operator,
+        >;
+    };
+}
+
+#[cfg(any(use_cpu, test))]
+pub mod common_cpu;
+#[cfg(use_cuda)]
+pub mod cuda;
+#[cfg(use_infini)]
+pub mod infini;
+#[cfg(use_cl)]
+pub mod opencl;
diff --git a/operators/src/attention_mla_cached/opencl.rs b/operators/src/attention_mla_cached/opencl.rs
@@ -0,0 +1 @@
+﻿impl_op!(opencl, ClDevice);
diff --git a/operators/src/attention_mla_cached/operator.rs b/operators/src/attention_mla_cached/operator.rs
@@ -0,0 +1,183 @@
+use crate::attention_mla_cached::args::Meta;
+use crate::attention_mla_cached::{Args, AttentionMLACached};
+use crate::{
+    attention_mla, get_static, rearrange, shape_mismatch, ByteOf, Hardware, LaunchError,
+    QueueAlloc, SchemeError, TensorLayout,
+};
+use ndarray_layout::ArrayLayout;
+use std::marker::PhantomData;
+
+pub struct Operator<Hardware, Rearrange, Attention> {
+    rearrange: Rearrange,
+    attention: Attention,
+    _phantom: PhantomData<Hardware>,
+}
+
+impl<H, R, A> AttentionMLACached<H> for Operator<H, R, A>
+where
+    H: Hardware,
+    R: rearrange::Rearrange<H>,
+    A: attention_mla::AttentionMLA<H>,
+{
+}
+
+impl<H, R, A> crate::Operator for Operator<H, R, A>
+where
+    H: Hardware,
+    R: rearrange::Rearrange<H>,
+    A: attention_mla::AttentionMLA<H>,
+{
+    type Hardware = H;
+    type TopoNode = H;
+    type Args = crate::attention_mla_cached::Args<H>;
+    fn new(node: &Self::TopoNode) -> Self {
+        Self {
+            rearrange: R::new(node),
+            attention: A::new(node),
+            _phantom: PhantomData,
+        }
+    }
+
+    fn scheme(
+        &mut self,
+        args: &Self::Args,
+        max_workspace_size: usize,
+    ) -> Result<usize, SchemeError> {
+        // TODO
+        Ok(0)
+    }
+
+    fn launch<QA>(
+        &self,
+        args: &Self::Args,
+        workspace: &mut [ByteOf<Self::Hardware>],
+        queue_alloc: &QA,
+    ) -> Result<(), LaunchError>
+    where
+        QA: QueueAlloc<Hardware = Self::Hardware>,
+    {
+        let Meta {
+            dt,
+            nh,
+            seq,
+            att,
+            dkv,
+            dv,
+            dr,
+        } = args.meta()?;
+        let Args {
+            q_layout,
+            q_base,
+            kv_layout,
+            kv_base,
+            absorb_layout,
+            absorb_base,
+            qr_layout,
+            qr_base,
+            kr_layout,
+            kr_base,
+            o_layout,
+            o_base,
+            kv_cache_layout,
+            kv_cache_base,
+            kr_cache_layout,
+            kr_cache_base,
+            mask,
+            pos,
+        } = args;
+        let &[nh_skv, att_skv, dkv_skv] = kv_layout.strides() else {
+            unreachable!()
+        };
+        let &[nh_skr, att_skr, dr_skr] = kr_layout.strides() else {
+            unreachable!()
+        };
+        let &[nh_sa, dv_sa, dkv_sa] = absorb_layout.strides() else {
+            unreachable!()
+        };
+
+        let &[_, buf_kv, _] = kv_cache_layout.shape() else {
+            unreachable!()
+        };
+        let &[_, buf_kr, _] = kr_cache_layout.shape() else {
+            unreachable!()
+        };
+        let &[nh_skvc, buf_skvc, dh_skvc] = kv_cache_layout.strides() else {
+            unreachable!()
+        };
+        let &[nh_skrc, buf_skrc, dh_skrc] = kr_cache_layout.strides() else {
+            unreachable!()
+        };
+        let ele = dt.nbytes();
+        get_static! {
+            nh      seq     dkv     dr
+            pos
+            buf_kv  buf_kr
+            nh_skvc buf_skvc dh_skvc
+            nh_skrc buf_skrc dh_skrc
+
+        };
+
+        // 检查 cache 容量
+        let att = pos + seq;
+        if buf_kr < att || buf_kv < att {
+            return Err(shape_mismatch("Out of cache buffer").into());
+        }
+        // 连接 kv cache
+        #[inline(always)]
+        fn layout(shape: [usize; 3], strides: [isize; 3]) -> ArrayLayout<3> {
+            ArrayLayout::new(&shape, &strides, 0)
+        }
+
+        let kvc_layout = layout([nh, buf_kv, dkv], [nh_skvc, buf_skvc, dh_skvc]);
+        let krc_layout = layout([nh, buf_kr, dr], [nh_skrc, buf_skrc, dh_skrc]);
+
+        let kv_cat = kvc_layout.slice(1, pos, 1, seq);
+        let kr_cat = krc_layout.slice(1, pos, 1, seq);
+
+        self.rearrange.launch(
+            &rearrange::Args {
+                dst_layout: TensorLayout::new(dt, kv_cat.shape(), kv_cat.strides()),
+                dst_base: unsafe { kv_cache_base.byte_add(kv_cat.offset() as _) },
+                src_layout: kv_layout.clone(),
+                src_base: *kv_base,
+            },
+            workspace,
+            queue_alloc,
+        )?;
+        self.rearrange.launch(
+            &rearrange::Args {
+                dst_layout: TensorLayout::new(dt, kr_cat.shape(), kr_cat.strides()),
+                dst_base: unsafe { kr_cache_base.byte_add(kr_cat.offset() as _) },
+                src_layout: kr_layout.clone(),
+                src_base: *kr_base,
+            },
+            workspace,
+            queue_alloc,
+        )?;
+        // attention
+        let kv_layout = kvc_layout.slice(1, 0, 1, att);
+        let kr_layout = krc_layout.slice(1, 0, 1, att);
+        assert_eq!(kv_layout.offset(), 0);
+        assert_eq!(kr_layout.offset(), 0);
+        self.attention.launch(
+            &attention_mla::Args {
+                mask: *mask,
+                q_layout: q_layout.clone(),
+                q_base: *q_base,
+                kv_layout: TensorLayout::new(dt, kv_layout.shape(), kv_layout.strides()),
+                kv_base: *kv_cache_base,
+                kr_layout: TensorLayout::new(dt, kr_layout.shape(), kr_layout.strides()),
+                kr_base: *kr_cache_base,
+                absorb_layout: absorb_layout.clone(),
+                absorb_base: *absorb_base,
+                qr_layout: qr_layout.clone(),
+                qr_base: *qr_base,
+                o_layout: o_layout.clone(),
+                o_base: *o_base,
+            },
+            workspace,
+            queue_alloc,
+        )?;
+        Ok(())
+    }
+}
diff --git a/operators/src/lib.rs b/operators/src/lib.rs
@@ -9,6 +9,7 @@ pub mod all_reduce;
 pub mod attention;
 pub mod attention_kv_cached;
 pub mod attention_mla;
+pub mod attention_mla_cached;
 pub mod broadcast;
 pub mod conv;
 pub mod fuesd_softmax;