CANN/CATLASS样例设计文档
CATLASS 样例设计文档【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass本文档汇总当前一些样例的设计思路和代码拆解读者可按照个人兴趣查阅具体内容。102_泛化Matmul工程-根据shape动态确定Tiling参数并尝试选择最好的模板进行计算尽力获取最优性能。CommonMatmul模板MultiCoreSplitkMatmul多核切K模板StreamkMatmul模板10_grouped_matmul_slice_m_per_token_dequant - 拆解模板库下的样例10包含原型设计、样例实现、example组装、kernel实现方案。对希望了解groupMatmul后处理类型的算子实现有指导价值。19_mla - 拆解模板库下的样例19、亲和昇腾AtlasA2硬件的Flash-MLA算子的实现。34_single_splitk_matmul - 拆解模板库下的样例34单核切K矩阵乘样例讲解算法实现和评估收益区间。44_quant_matmul_full_loadA_tla - 拆解模板库下的样例44、quant量化下的A矩阵全载matmul样例的实现。49_ascend950_flash_attention_infer - 拆解模板库下的样例49亲和昇腾950硬件的FlashAttention推理算子的实现。52_quant_multi_core_splitk_matmul_tla - 拆解模板库下的样例52、quant量化下的多核切K样例的实现。【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考