masked-attention 算法详解 - Zhang #202

2024-11-27T08:19:25Z

giscus[bot]
bot Nov 27, 2024

从事 LLM 推理部署、视觉算法开发、模型压缩部署以及算法SDK开发工作,终身学习践行者。TransformerCasual Mask 机制的本质是为了构建下三角的注意力分数矩阵，从而实现因果模型只关注当前 token 与之前 token 的注意力关系，而不理会它与后续 token 的关系，即只

yemyhdtrc6088 · 2024-11-27T08:19:28Z

评论了好多，结果没有了

0 replies