
MrgSort【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品√Atlas 推理系列产品 AI CorexAtlas 推理系列产品 Vector CorexAtlas 训练系列产品x功能说明将已经排好序的最多4条队列合并排列成1条队列结果按照score域由大到小排序。MrgSort指令处理的数据一般是经过Sort32指令处理后的数据也就是Sort32指令的输出队列的结构如下所示数据类型为float每个结构占据8Bytes。数据类型为half每个结构也占据8Bytes中间有2Bytes保留。函数原型template typename T __aicore__ inline void MrgSort(const LocalTensorT dst, const MrgSortSrcListT src, const MrgSort4Info params)参数说明表 1模板参数说明参数名描述TAscend 950PR/Ascend 950DT支持的数据类型为half/floatAtlas A3 训练系列产品 / Atlas A3 推理系列产品支持的数据类型为half/floatAtlas A2 训练系列产品 / Atlas A2 推理系列产品支持的数据类型为half/floatAtlas 200I/500 A2 推理产品支持的数据类型为half/float表 2接口参数说明参数名称输入/输出含义dst输出目的操作数存储经过排序后的数据。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。src输入源操作数4个队列并且每个队列都已经排好序类型为MrgSortSrcList结构体定义如下template typename T struct MrgSortSrcList { __aicore__ MrgSortSrcList() {} __aicore__ MrgSortSrcList(const LocalTensorT src1In, const LocalTensorT src2In, const LocalTensorT src3In, const LocalTensorT src4In) { src1 src1In[0]; src2 src2In[0]; src3 src3In[0]; src4 src4In[0]; } LocalTensorT src1; // 第一个已经排好序的队列 LocalTensorT src2; // 第二个已经排好序的队列 LocalTensorT src3; // 第三个已经排好序的队列 LocalTensorT src4; // 第四个已经排好序的队列 };源操作数的数据类型与目的操作数保持一致。src1、src2、src3、src4类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要8字节对齐。params输入排序所需参数类型为MrgSort4Info结构体。具体定义请参考${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_proposal.h${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。参数说明请参考表3。表 3MrgSort4Info参数说明参数名称含义elementLengths四个源队列的长度8Bytes结构的数目类型为长度为4的uint16_t数据类型的数组理论上每个元素取值范围[0, 4095]但不能超出UB的存储空间。ifExhaustedSuspension某条队列耗尽后指令是否需要停止类型为bool默认false。validBit有效队列个数取值如下3前两条队列有效7前三条队列有效15四条队列全部有效repeatTimes迭代次数每一次源操作数和目的操作数跳过四个队列总长度。取值范围repeatTimes∈[1,255]。repeatTimes参数生效是有条件的需要同时满足以下四个条件src包含四条队列并且validBit15四个源队列的长度一致四个源队列连续存储ifExhaustedSuspension False返回值说明无约束说明当存在score[i]与score[j]相同时如果ij则score[j]将首先被选出来排在前面。每次迭代内的数据会进行排序不同迭代间的数据不会进行排序。需要注意此函数排序的队列非region proposal结构。操作数地址对齐要求请参见通用地址对齐约束。调用示例完整使用样例请参见MrgSort样例。// 对8个已排好序的队列进行合并排序repeatTimes 2数据连续存放 // 每个队列包含32个(score,index)的8Bytes结构 // 最后输出对score域的256个数完成排序后的结果 AscendC::MrgSort4Info params; params.elementLengths[0] 32; params.elementLengths[1] 32; params.elementLengths[2] 32; params.elementLengths[3] 32; params.ifExhaustedSuspension false; params.validBit 0b1111; params.repeatTimes 2; AscendC::MrgSortSrcListfloat srcList; srcList.src1 workLocal[0]; srcList.src2 workLocal[64]; // workLocal为float类型每个队列占据256Bytes空间 srcList.src3 workLocal[128]; srcList.src4 workLocal[192]; AscendC::MrgSortfloat(dstLocal, srcList, params); outQueueDst.EnQuefloat(dstLocal); outQueueDst.FreeTensor(dstLocal);【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考