CANN MXFP4矩阵乘分步教程
MXFP4矩阵乘分步教程【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples概述本目录提供从基础实现到高性能实现的分步教程覆盖0_naive到7_fullload共 8 个 Step。教程可执行文件参数统一为program m k nm矩阵 A 的行数k矩阵 A 的列数同时也是矩阵 B 的行数要求为偶数n矩阵 B 的列数Step 列表matmul_tutorial_mxfp4_baseStep 0matmul_tutorial_mxfp4_pingpongStep 1matmul_tutorial_mxfp4_swatStep 2matmul_tutorial_mxfp4_swat_balanceStep 3matmul_tutorial_mxfp4_swat_unitflagStep 4matmul_tutorial_mxfp4_half1l1_ping_halfl1_pongStep 5matmul_tutorial_mxfp4_memery_access_coalescingStep 6matmul_tutorial_mxfp4_a_fullloadStep 7一键运行推荐仓库提供scripts/run.sh可一键串联构建 → 数据生成 → 算子执行 → 结果校验全流程。 建议先进入matmul_tutorials/目录再执行cd Samples/2_Performance/matmul_story/matmul_tutorials # 指定 Step 运行 bash scripts/run.sh --target matmul_tutorial_mxfp4_swat 256 256 256 # 自动构建 未指定 target 时运行 Step 0matmul_tutorial_mxfp4_base bash scripts/run.sh 256 256 256 # 跳过构建阶段 bash scripts/run.sh --target matmul_tutorial_mxfp4_swat_balance --skip-build 256 256 256 # 查看完整帮助 bash scripts/run.sh --helprun.sh 参数说明参数说明m k n矩阵维度必填。k须为偶数。--target name指定要运行的教程可执行文件名省略时默认 Step 0matmul_tutorial_mxfp4_base--skip-build跳过构建/安装阶段复用已有build_out。-h, --help显示帮助信息。手动构建与运行如需手动控制各步骤在仓库根目录执行编译安装并进入教程安装目录cmake -S . -B build -DNPU_ARCHdav-3510 cmake --build build --parallel cmake --install build --prefix ./build_out cd build_out/2_Performance/matmul_story/matmul_tutorials随后按以下流程执行# 1) 生成输入数据与 CPU golden python3 gen_data.py 256 256 256 # 2) 运行某个 Step示例Step 2 ./matmul_tutorial_mxfp4_swat 256 256 256相关文档顶层说明../README.md分步优化说明与流水图../docs/quant_matmul_mxfp4_tutorials.md【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考