检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
增加这个配置,3次发包均无响应会断开连接 比如防火墙配置是2小时空闲就关闭连接,那我们客户端配置ServerAliveInterval小于2小时(比如1小时),就可以避免防火墙将连接断开。 服务器端配置(Notebook当前已经配置,24h应该是长于防火墙的断连时间配置,该配置无需用户手工修
增加这个配置,3次发包均无响应会断开连接 比如防火墙配置是2小时空闲就关闭连接,那客户端配置ServerAliveInterval小于2小时(比如1小时),就可以避免防火墙将连接断开。 服务器端配置(Notebook当前已经配置,24h应该是长于防火墙的断连时间配置,该配置无需用户手工修改
run -itd --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=1024g
\ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6
dcmi接口检测到driver异常。 NPU驱动环境异常。 A050122 NPU 其他 npu dcmi device异常。 NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 A050123 NPU 链路 npu dcmi net异常。 NPU网络链接异常。 A050129
-p 8080:8080 \ --device=/dev/davinci6 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \
主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
run -itd --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=1024g
--net=bridge \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4
-itd \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \
"software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。
"software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。
本方案目前仅适用于企业客户。 资源规格要求 推理部署推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B和300IDUO。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.909软件包中的AscendCloud-AIGC-6
-itd \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc
docker run -itd --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=32g
Spore Lite的基础功能和用法。 图6 ResNet50模型迁移到Ascend上进行推理 Stable Diffusion模型迁移到Ascend上进行推理:介绍如何将Stable Diffusion模型通过MSLite进行转换后,迁移在昇腾设备上运行。 图7 Stable
上传数据和算法至OBS(首次使用时需要) 前提条件 已经在OBS上创建好并行文件系统,请参见创建并行文件系统。 已经在obsutil安装和配置,请参见obsutils安装和配置。 准备数据 单击下载动物数据集至本地,并解压。 通过obsutil将数据集上传至OBS桶中。 ./obsutil
CUDA和CUDNN Vnt1机型软件版本建议:gpu driver version : 440.95.01 gpu driver version : 440.95.01(GPU驱动在宿主机中安装,镜像中无需安装) cuda runtime version : 10.2(PyTorch自带,无需关心)
如图1所示,用户向ModelArts授权后,ModelArts使用委托授权的临时凭证访问和操作用户资源,协助用户自动化一些繁琐和耗时的操作。同时,委托凭证会同步到用户的作业中(Notebook实例和训练作业),客户在作业中可以使用委托凭证自行访问自己的资源。 在ModelArts服务中委托授权有两种方式:
NodeCondition Type 分类 子类 异常中文描述 检测方法 处理建议 NT_NPU_DEVICE NPU 其他 npu dcmi device异常。 NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。