CANN/asc-devkit SIMD API连续对齐搬入

发布时间：2026/5/20 12:55:07

CANN/asc-devkit SIMD API连续对齐搬入

连续对齐搬入【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品xAtlas A2 训练系列产品 / Atlas A2 推理系列产品xAtlas 200I/500 A2 推理产品xAtlas 推理系列产品 AI CorexAtlas 推理系列产品 Vector CorexAtlas 训练系列产品x功能说明Reg矢量计算数据搬运接口适用于从UB连续对齐搬入RegTensor。单搬入模式下可以将数据从UB搬运到一个目的寄存器双搬入模式下可以将数据从UB搬运到两个目的寄存器。函数原型// 单搬入模式 POST_MODE_NORMAL场景 template typename T DefaultType, LoadDist dist LoadDist::DIST_NORM, typename U __simd_callee__ inline void LoadAlign(U dstReg, __ubuf__ T* srcAddr); // 单搬入模式 POST_MODE_UPDATE场景 template typename T DefaultType, PostLiteral postMode, LoadDist dist LoadDist::DIST_NORM, typename U __simd_callee__ inline void LoadAlign(U dstReg, __ubuf__ T* srcAddr, int32_t postUpdateStride); // 单搬入模式使用AddrReg存储偏移量 template typename T DefaultType, LoadDist dist LoadDist::DIST_NORM, typename U __simd_callee__ inline void LoadAlign(U dstReg, __ubuf__ T* srcAddr, AddrReg offset); // 双搬入模式 POST_MODE_NORMAL场景 template typename T DefaultType, LoadDist dist, typename U __simd_callee__ inline void LoadAlign(U dstReg0, U dstReg1, __ubuf__ T* srcAddr); // 双搬入模式 POST_MODE_UPDATE场景 template typename T DefaultType, PostLiteral postMode, LoadDist dist, typename U __simd_callee__ inline void LoadAlign(U dstReg0, U dstReg1, __ubuf__ T* srcAddr, int32_t postUpdateStride); // 双搬入模式使用 AddrReg存储偏移量 template typename T DefaultType, LoadDist dist, typename U __simd_callee__ inline void LoadAlign(U dstReg0, U dstReg1, __ubuf__ T* srcAddr, AddrReg offset);参数说明表 1LoadDist模板参数说明单搬入模式LoadDist取值含义搬运对齐约束ByteDIST_NORM正常模式搬运VL数据32DIST_BRC_B8搬运一个b8类型的数据并Broadcast到所有元素位置1DIST_BRC_B16搬运一个b16类型的数据并Broadcast到所有元素位置2DIST_BRC_B32搬运一个b32类型的数据并Broadcast到所有元素位置4DIST_US_B8数据2倍上采样加载VL/2个数据每个输入元素重复两次数据类型为b8min(32, VL/2)DIST_US_B16数据2倍上采样加载VL/2个数据每个输入元素重复两次数据类型为b16min(32, VL/2)DIST_DS_B8数据2倍下采样加载2倍VL的数据数据每隔一个保留数据类型为b832DIST_DS_B16数据2倍下采样加载2倍VL的数据数据每隔一个保留数据类型为b1632DIST_UNPACK_B8解压缩模式按无符号整型u8加载VL/2长度数据unpack到VL长度u16类型中间位置补0例VL256Bsrc: [0x00, 0x01, 0x02, 0x03, ..., 0xFF, ...]dst:[0x0000, 0x0001, ..., 0x0007F]min(32, VL/2)DIST_UNPACK_B16解压缩模式按无符号整型u16加载VL/2长度数据unpack到VL长度u32类型中间位置补0例VL256Bsrc: [0x0000, 0x0001, 0x0002, 0x0003, ..., 0x007F, ...]dst:[0x00000000, 0x00000001, ..., 0x000003F]min(32, VL/2)DIST_BLK读取一个DataBlock32B并广播到VL32DIST_E2B_B16加载(VL/DataBlock)B的数据并将每个元素16bit广播到一个DataBlock32B中。VL/16DIST_E2B_B32加载(VL/DataBlock)B的数据并将每个元素32bit广播到一个DataBlock32B中。VL/8DIST_UNPACK_B32解压缩模式按无符号整型u32加载VL/2长度数据unpack到VL长度u64类型中间位置补0例VL256Bsrc: [0x00000000, 0x00000001, 0x00000002, ..., 0x000003F, ...]dst:[0x0000000000000000, 0x0000000000000001, ..., 0x000000000000001F]min(32, VL/2)DIST_UNPACK4_B8解压缩模式按无符号整型u8加载VL/4长度数据unpack到VL长度u32类型中间位置补0例VL256Bsrc: [0x00, 0x01, 0x02, 0x03, ..., 0xFF, ...]dst:[0x00000000, 0x00000001, ..., 0x000003F]min(32, VL/4)表 2LoadDist模板参数说明双搬入模式LoadDist取值含义搬运对齐约束ByteDIST_DINTLV_B8双搬入模式基于元素的交错搬运从src中读取2*VL长度数据将偶数索引的元素存入dst0将奇数索引的元素存入dst1数据类型为b832DIST_DINTLV_B16双搬入模式基于元素的交错搬运从src中读取2*VL长度数据将偶数索引的元素存入dst0将奇数索引的元素存入dst1数据类型为b1632DIST_DINTLV_B32双搬入模式基于元素的交错搬运从src中读取2*VL长度数据将偶数索引的元素存入dst0将奇数索引的元素存入dst1数据类型为b3232表 3单搬入模式POST_MODE_NORMAL场景参数说明参数名输入/输出描述T输入操作数数据类型。Ascend 950PR/Ascend 950DT支持的数据类型为b8/b16/b32/b64。dist输入搬运模式LoadDist类型具体的取值请参考表1。U输入目的操作数的RegTensor类型例如RegTensorhalf由编译器自动推导用户不需要填写。dstReg输出目的操作数类型为RegTensor。srcAddr输入源操作数在UB上的起始地址。表 4单搬入模式POST_MODE_UPDATE场景参数说明参数名输入/输出描述T输入模板参数。Ascend 950PR/Ascend 950DT支持的数据类型为b8/b16/b32/b64。postMode输入用于控制是否使能post updatePostLiteral类型。dist输入搬运模式LoadDist类型具体的取值请参考表1。U输入目的操作数的RegTensor类型例如RegTensorhalf由编译器自动推导用户不需要填写。dstReg输出目的操作数类型为RegTensor。srcAddr输入/输出源操作数在UB上的起始地址。postUpdateStride输入实际搬运UB起始地址为srcAddr搬运后执行地址更新srcAddr postUpdateStride。表 5单搬入模式使用AddrReg存储偏移量场景参数说明参数名输入/输出描述T输入模板参数。Ascend 950PR/Ascend 950DT支持的数据类型为b8/b16/b32/b64。dist输入搬运模式LoadDist类型具体的取值请参考表1。U输入目的操作数的RegTensor类型例如RegTensorhalf由编译器自动推导用户不需要填写。dstReg输出目的操作数类型为RegTensor。offset输入实际搬运地址UB为srcAddr offset。srcAddr输入/输出源操作数在UB上的起始地址。表 6双搬入模式POST_MODE_NORMAL场景参数说明参数名输入/输出描述T输入模板参数支持的数据类型为b8/b16/b32。dist输入搬运模式LoadDist类型具体的取值请参考表2。U输入目的操作数的RegTensor类型例如RegTensorhalf由编译器自动推导用户不需要填写。dstReg0输出第一个目的操作数类型为RegTensor。dstReg1输出第二个目的操作数类型为RegTensor。srcAddr输入/输出源操作数在UB上的起始地址。表 7双搬入模式POST_MODE_UPDATE场景参数说明参数名输入/输出描述T输入模板参数。Ascend 950PR/Ascend 950DT支持的数据类型为b8/b16/b32/b64。postMode输入用于控制是否使能post updatePostLiteral类型。dist输入搬运模式LoadDist类型具体的取值请参考表2。U输入目的操作数的RegTensor类型例如RegTensorhalf由编译器自动推导用户不需要填写。dstReg0输出第一个目的操作数类型为RegTensor。dstReg1输出第二个目的操作数类型为RegTensor。srcAddr输入/输出源操作数在UB上的起始地址。postUpdateStride输入实际搬运UB起始地址为srcAddr搬运后执行地址更新srcAddr postUpdateStride。表 8双搬入模式使用AddrReg存储偏移量场景参数说明参数名输入/输出描述T输入模板参数支持的数据类型为b8/b16/b32。dist输入搬运模式LoadDist类型具体的取值请参考表2。U输入目的操作数的RegTensor类型例如RegTensorhalf由编译器自动推导用户不需要填写。dstReg0输出第一个目的操作数类型为RegTensor。dstReg1输出第二个目的操作数类型为RegTensor。offset输入实际搬运地址UB为srcAddr offset。srcAddr输入/输出源操作数在UB上的起始地址。返回值说明无约束说明b64数据类型只支持LoadDist中的DIST_NORM模式。调用示例// 单搬入/单搬出 POST_MODE_NORMAL 场景 __simd_vf__ inline void ComputeMode01(__ubuf__ T* dstAddr, __ubuf__ T* srcAddr, uint32_t dstSize, uint32_t oneRepeatSize, uint16_t repeatTimes) { AscendC::Reg::RegTensorT dstReg; AscendC::Reg::MaskReg mask; for (uint16_t i 0; i repeatTimes; i) { mask AscendC::Reg::UpdateMaskT(dstSize); AscendC::Reg::LoadAlign(dstReg, srcAddr i * oneRepeatSize); AscendC::Reg::StoreAlign(dstAddr i * oneRepeatSize, dstReg, mask); } } // 单搬入/单搬出 POST_MODE_UPDATE 场景 __simd_vf__ inline void ComputeMode02(__ubuf__ T* dstAddr, __ubuf__ T* srcAddr, uint32_t dstSize, uint32_t oneRepeatSize, uint16_t repeatTimes) { AscendC::Reg::RegTensorT dstReg; AscendC::Reg::MaskReg mask; for (uint16_t i 0; i repeatTimes; i) { mask AscendC::Reg::UpdateMaskT(dstSize); AscendC::Reg::LoadAlignT, AscendC::Reg::PostLiteral::POST_MODE_UPDATE(dstReg, srcAddr, oneRepeatSize); AscendC::Reg::StoreAlignT, AscendC::Reg::PostLiteral::POST_MODE_UPDATE(dstAddr, dstReg, oneRepeatSize, mask); } } // 单搬入/单搬出使用 AddrReg 存储偏移量场景 __simd_vf__ inline void ComputeMode03(__ubuf__ T* dstAddr, __ubuf__ T* srcAddr, uint32_t oneRepeatSize, uint16_t repeatTimes) { AscendC::Reg::RegTensorT dstReg; AscendC::Reg::MaskReg mask AscendC::Reg::CreateMaskT(); AscendC::Reg::AddrReg aReg; for (uint16_t i 0; i repeatTimes; i) { aReg AscendC::Reg::CreateAddrRegT(i, oneRepeatSize); AscendC::Reg::LoadAlign(dstReg, srcAddr, aReg); AscendC::Reg::StoreAlign(dstAddr, dstReg, aReg, mask); } } // 双搬入/双搬出 POST_MODE_NORMAL 场景 __simd_vf__ inline void ComputeMode04(__ubuf__ T* dstAddr, __ubuf__ T* srcAddr, uint32_t oneRepeatSize, uint16_t repeatTimes) { AscendC::Reg::RegTensorT srcReg0; AscendC::Reg::RegTensorT srcReg1; AscendC::Reg::MaskReg mask AscendC::Reg::CreateMaskuint8_t, AscendC::Reg::MaskPattern::ALL(); for (uint16_t i 0; i repeatTimes; i) { AscendC::Reg::LoadAlignT, AscendC::Reg::LoadDist::DIST_DINTLV_B8(srcReg0, srcReg1, srcAddr i * oneRepeatSize); AscendC::Reg::StoreAlignT, AscendC::Reg::StoreDist::DIST_INTLV_B8(dstAddr i * oneRepeatSize, srcReg0, srcReg1, mask); } } // 双搬入/双搬出使用 AddrReg 存储偏移量场景 __simd_vf__ inline void ComputeMode05(__ubuf__ T* dstAddr, __ubuf__ T* srcAddr, uint32_t oneRepeatSize, uint16_t repeatTimes) { AscendC::Reg::RegTensorT srcReg0; AscendC::Reg::RegTensorT srcReg1; AscendC::Reg::MaskReg mask AscendC::Reg::CreateMaskT(); AscendC::Reg::AddrReg aReg; for (uint16_t i 0; i repeatTimes; i) { aReg AscendC::Reg::CreateAddrRegT(i, oneRepeatSize); AscendC::Reg::LoadAlignT, AscendC::Reg::LoadDist::DIST_DINTLV_B8(srcReg0, srcReg1, srcAddr, aReg); AscendC::Reg::StoreAlignT, AscendC::Reg::StoreDist::DIST_INTLV_B8(dstAddr, srcReg0, srcReg1, aReg, mask); } }【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

相关新闻

Linux时区设置全解析：从原理到实践，解决CST时间配置难题

Linux时区设置全解析：从原理到实践，解决CST时间配置难题

2026/5/20 12:55:07

Perplexity查不出薛定谔方程推导？紧急修复指南：4步重置知识图谱权重，实测响应准确率从62%→98.7%

Perplexity查不出薛定谔方程推导？紧急修复指南：4步重置知识图谱权重，实测响应准确率从62%→98.7%

2026/5/20 12:54:23

【限时开放】Perplexity医疗知识图谱API密钥申请通道关闭倒计时——全球仅剩47个三甲机构白名单资格

【限时开放】Perplexity医疗知识图谱API密钥申请通道关闭倒计时——全球仅剩47个三甲机构白名单资格

2026/5/20 12:54:23

FreeRDP 终极指南：跨平台远程桌面完全解决方案

FreeRDP 终极指南：跨平台远程桌面完全解决方案

2026/5/20 13:06:21

定量数据的集中趋势通常用平均数、中位数和众数来描述，能够帮助研究人员理解数据的中心位置，或者说数据分布的核心特征

定量数据的集中趋势通常用平均数、中位数和众数来描述，能够帮助研究人员理解数据的中心位置，或者说数据分布的核心特征

2026/5/20 13:05:20

Markdown Viewer 自定义主题：让技术文档展现你的个性风格

Markdown Viewer 自定义主题：让技术文档展现你的个性风格

2026/5/20 13:05:20

Axure RP中文汉化终极指南：3分钟告别英文界面，让设计效率翻倍！[特殊字符]

Axure RP中文汉化终极指南：3分钟告别英文界面，让设计效率翻倍！[特殊字符]

2026/5/20 13:05:20

Hitboxer：终极免费SOCD按键重映射工具，3分钟彻底解决游戏输入冲突

Hitboxer：终极免费SOCD按键重映射工具，3分钟彻底解决游戏输入冲突

2026/5/20 13:03:39

最火的知识付费系统小程序+PC+H5三端数据互通支持采集资源开源版

最火的知识付费系统小程序+PC+H5三端数据互通支持采集资源开源版

2026/5/20 13:01:54

Claude Code 在 AI Agent 项目上线阶段的 4 类运维问题与自动化迭代方案

Claude Code 在 AI Agent 项目上线阶段的 4 类运维问题与自动化迭代方案

2026/5/20 0:02:28

m4s-converter：开源跨平台工具实现B站缓存视频无缝转换

m4s-converter：开源跨平台工具实现B站缓存视频无缝转换

2026/5/20 0:02:28

保姆级教程：在Ubuntu 20.04上用kitti2bag工具把KITTI Raw Data转成ROS Bag（避坑实录）

保姆级教程：在Ubuntu 20.04上用kitti2bag工具把KITTI Raw Data转成ROS Bag（避坑实录）

2026/5/20 0:03:49

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

2026/5/19 15:55:14

DDR3内存Row Hammer问题解析与防护方案

DDR3内存Row Hammer问题解析与防护方案

2026/5/19 14:37:42

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

2026/5/19 15:55:14

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

2026/5/19 15:55:14

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

2026/5/19 15:55:14

全平台智能资源下载工具：res-downloader 完整使用教程

全平台智能资源下载工具：res-downloader 完整使用教程

2026/5/19 14:37:37