本文由AI智能模型生成,在自有数据的基础上,训练NLP文本生成模型,根据标题生成内容,适配到模板。内容仅供参考,不对其准确性、真实性等作任何形式的保证,如果有任何问题或意见,请联系contentedit@huawei.com或点击右侧用户帮助进行反馈。我们原则上将于收到您的反馈后的5个工作日内做出答复或反馈处理结果。
猜你喜欢:因此,如果使用此参数,则不需要对因子进行UB空间划分,分别用UB中的Scalar值。因此,首先根据shape的大小进行UB空间划分,所以对于float16的要求时,要在中UB上进行任何整数倍的计算。首先我们要确定一个shape来实现多核的泛化。在满足分例定义的情况下,我们还会引入额外的tiling模块,编译时减少不必要的scalar操作,计算性能。更多标题相关内容,可点击查看
猜您想看:在循环中,我们可以通过doublebuffer和tbe_vadd接口来计算data_move。设置独立的计算结果,将其与算子计算逻辑分离可以很好的做到算子的shape泛化。对于不同的shape,我们可以在不改变计算逻辑的情况下,只改变tiling参数来优化搬运和计算的次数,来做到泛化和高性能。根据tiling的计算结果,我们判断要不要使用多核。更多标题相关内容,可点击查看
智能推荐:如果要使用多核,就需要设置多核循环。并且定义UBtensor的操作必须定义在多核循环内,防止编译时出现冲突。对于多核场景,每次循环都会遍历输入张量indices,在计算出index后判断该index是否在当前核的处理范围内再进行计算。该函数主要操作是将indices分片搬入到UB中,然后遍历和计算出需要更新的var对应的index。搬运的时候需要考虑最后一个分片,搬运的burst_len需要单独计算。更多标题相关内容,可点击查看