矩阵乘算子样例【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples概述本目录汇总了矩阵乘在昇腾 AI 处理器上的典型实现样例。每个样例提供完整的算子代码、运行脚本与说明文档便于直接编译运行并做性能对比。目录结构matmul_recipes/ ├── CMakeLists.txt ├── README.md ├── common/ # 公共工具host/kernel ├── include/ # 共享头文件block、kernel、policy、tile 等 └── examples/ ├── quant_matmul_mxfp4/ # MXFP4 量化矩阵乘样例 │ ├── README.md │ ├── quant_matmul_mxfp4_swat.cpp │ ├── quant_matmul_mxfp4_a_full_load.cpp │ └── scripts/ │ ├── gen_data.py │ ├── verify_result.py │ └── quant_matmul_mxfp4_algorithm_recommend.py └── matmul_a16w16/ # A16W16 非量化矩阵乘样例 └── README.md样例列表样例数据类型说明matmul_a16w16Float16A16W16 非量化矩阵乘quant_matmul_mxfp4MXFP44 位浮点量化矩阵乘包含 SWAT 与 A 全载两种实现quant_matmul_mxfp8MXFP88 位浮点量化矩阵乘包含 SWAT 与 A 全载两种实现使用方式查看对应样例目录下的README.md按说明完成构建、运行与结果校验。推荐先从quant_matmul_mxfp4开始便于快速验证脚本与可执行文件的配套流程。性能优化指南各样例涉及的模板实现及优化策略详见 MX 量化矩阵乘算子性能优化指南。【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考