检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--configFile=./configs/text_encoder.ini 如果网络模型有多个输入:档位的dim值与网络模型输入参数中的-1标识的参数依次对应,网络模型输入参数中有几个-1,则每档必须设置几个维度。 以unet模型为例,该网络模型有三个输入,分别为“sample(1,4,64,64)”
SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现
install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install **。 加上“--no-cache”参数,可以解决很多此类报错。 父主题: 实例故障
udo工具未安装或安装错误; 用户使用的cann、cuda环境有兼容性问题; 用户的docker镜像配置错误、网络或防火墙限制、镜像构建问题(文件权限、依赖缺失或构建命令错误)等原因导致的。 父主题: 自定义镜像故障
netes基础知识、网络知识、存储和镜像知识。 配置流程 图1 Lite Cluster资源配置流程图 表1 Cluster资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Cluster网络 购买资源池后,需要弹性公网IP并进行网络配置,配置网络后可通过公网访问集群资源。
自动高性能算子生成工具AKG AKG(Auto Kernel Generator)对深度神经网络中的算子进行优化,并提供特定模式下的算子自动融合功能。提升在昇腾硬件后端上运行网络的性能。 AKG由三个基本的优化模块组成:规范化、自动调度和后端优化。 规范化: 为了解决poly
检测等能力。 安全防护套件覆盖和使用堡垒机,增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用,采用了统一推荐的Web安全组件防
且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务器GPU间是走NVLINK,可以通过相关命令查询GPU拓扑模式: nvidia-smi topo -m 图1 查询GPU拓扑模式 操作步骤 使用以下脚本测得GPU服务器内NVLINK带宽性能。
cn/help/anaconda/。 常用Conda命令 全部Conda命令建议参考Conda官方文档。这里仅对常用命令做简要说明。 表1 常用Conda命令 命令说明 命令 获取帮助 conda --help conda update --help #获取某一命令的帮助,如update 查看conda版本
配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。 sed
镜像过大,卸载原来的包重新打包镜像,最终镜像会变小吗? 不会,反而会变大。因为Docker镜像的层原因,当前的镜像是基于原来的镜像制作,而原来的镜像层数是无法改变的,层不变的情况下,大小是不变的,卸载包或者删除数据集,会新增镜像层,镜像反而会变大,这和传统概念的存储不一样。 父主题:
表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.910-xxx.zip软件包中的AscendCloud-AIGC-6.3.910-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts
SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现
”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no
模型使用CV2包部署在线服务报错 问题现象 使用CV2包部署在线服务报错。 原因分析 使用OBS导入元模型,会用到服务侧的标准镜像,标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务(OBS)导入CV2模型包。 处理方法 需要您把CV2包制作为自定义
表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.911-xxx.zip软件包中的AscendCloud-AIGC-6.3.911-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts
训练性能测试流程图如下图所示: 图1 训练性能测试流程 执行性能比较脚本 完成benchmark启动任务。 进入test-benchmark目录执行命令。 ascendfactory-cli performance <cfgs_yaml_file> --baseline <baseline>
获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。