CANN/ops-nn反量化算子文档

张

张建站

2026/5/11 3:33:32

10分钟阅读

AscendAntiQuantV2【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品√Atlas 训练系列产品×功能说明算子功能根据输入的scale和offset对输入x进行反量化。计算公式sqrt_mode为trueoffset为None时计算公式为$$ y cast_to_dst_type((x) * scale * scale) $$sqrt_mode为trueoffset不为None时计算公式为$$ y cast_to_dst_type((x offset) * scale * scale) $$sqrt_mode为falseoffset为None时计算公式为$$ y cast_to_dst_type((x) * scale) $$sqrt_mode为falseoffset不为None时计算公式为$$ y cast_to_dst_type((x offset) * scale) $$参数说明参数名输入/输出/属性描述数据类型数据格式x输入表示算子输入的Tensor对应公式中的x不支持空Tensor当数据类型是INT4时shape的尾轴为偶数。INT4、INT8、HIFLOAT8、FLOAT8_E4M3、FLOAT8_E5M2NDscale输入表示反量化中的scale值。对应公式中的scale不支持空Tensorscale的维数必须与x相同或者是1维如果x是1维scale的形状必须是[1]或与x相同如果scale是1维其大小必须是1、x[-1]或x[-2]如果scale是多维最多只能有一个非1的维度且这个非1的维度只能是-1或-2轴当输入x的类型为HIFLOAT8、FLOAT8_E4M3、FLOAT8_E5M2时scale只支持FLOAT32。FLOAT32、BFLOAT16NDoffset可选输入表示反量化中的offset值。对应公式中的offset不支持空Tensor数据类型和shape需要与scale保持一致。和scale一致NDdst_type可选属性表示输出的数据类型支持取值1、27分别表示FLOAT16、BFLOAT16。INT64-sqrt_mode可选属性表示scale参与计算的逻辑。对应公式中的sqrt_mode当x的数据类型为HIFLOAT8、FLOAT8_E4M3、FLOAT8_E5M2时sqrt_mode为false。BOOL-y输出表示反量化的计算输出。对应公式中的yshape和输入x一致。FLOAT16、BFLOAT16NDAtlas 推理系列产品数据类型入参x仅支持INT8。入参scale、offset和出参y不支持BFLOAT16。入参dstType仅支持取值1表示FLOAT16。入参scale、offset仅支持一维且只能等于x尾轴大小或1当x为int32类型时必须为x尾轴大小的8倍。Atlas A2 训练系列产品/Atlas A2 推理系列产品/Atlas A3 训练系列产品/Atlas A3 推理系列产品入参x仅支持INT4、INT8。入参scale、offset仅支持一维且只能等于x尾轴大小或1当x为int32类型时必须为x尾轴大小的8倍。约束说明无调用说明调用方式样例代码说明aclnn接口test_aclnn_ascend_anti_quant通过aclnnAscendAntiQuant接口方式调用AscendAntiQuantV2算子。图模式-通过算子IR构图方式调用AscendAntiQuantV2算子。【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/ops-nn动态块MX量化算子

DynamicBlockMxQuant 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn 产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理…...

2026/5/11 3:27:05 阅读更多 →

ARM CP15寄存器详解与底层开发实践

1. ARM CP15寄存器概述CP15是ARM架构中的系统控制协处理器，负责管理处理器核心的关键功能模块。作为嵌入式系统开发人员，理解CP15寄存器的工作原理和操作方法，是进行底层系统软件开发的基础。CP15寄存器通过协处理器指令MRC(读)和MCR(写)进行…...

2026/5/11 3:18:18 阅读更多 →

别再傻傻切片了！PyTorch Tensor高级索引实战：用index_select、masked_select和gather提升数据处理效率

别再傻傻切片了！PyTorch Tensor高级索引实战：用index_select、masked_select和gather提升数据处理效率在深度学习项目的日常开发中，数据处理环节往往占据了开发者大量的时间和精力。许多PyTorch用户习惯性地使用基础切片操作来处理Tensor数据…...

2026/5/11 3:12:01 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/10 0:00:31 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/10 0:00:33 阅读更多 →