正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
Standard推理的创建AI应用 创建AI应用时导入OBS文件,最大支持20GB。更多信息,请参见创建AI应用。 创建AI应用时,系统文件超过容器引擎空间大小时,会提示镜像内空间不足。当前,公共资源池容器引擎空间的大小最大支持50G,专属资源池容器引擎空间的默认为50G,专属资源池容器引擎空间可在创建资源
后单击“确定”完成修改。修改后,之前添加了此标签的音频,都将被标注为新的标签名称。 删除标签:单击操作列的删除图标,在弹出的对话框中,根据提示框选择需要删除的对象,然后单击“确定”完成删除。 修改标注信息 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 在数据
我的算法”页面,“删除”运行结束的训练作业。您可以单击“操作”列的“删除”,在弹出的提示框中单击“确认”,删除对应的算法。 删除订阅算法:前往AI Gallery,在“我的资产 > 算法”中,单击我的订阅,对需要删除的算法单击“取消订阅”,在弹出的提示框中单击“确认”即可。 父主题: 使用ModelArts
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。
ModelArts Standard推理服务访问公网方案 本章节提供了推理服务访问公网的方法。 应用场景 推理服务访问公网地址的场景,如: 输入图片,先进行公网OCR服务调用,然后进行NLP处理; 进行公网文件下载,然后进行分析; 分析结果回调给公网服务终端。 方案设计 从推理服
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。
获取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行。您可在资源池详情页的节点页签下,找到对应节点,在操作列单击“更多 > 授权”,在弹出的提示框中单击“确认”即可完成授权。 正常情况下,该授权按钮为置灰状态。当华为云技术支持发起运维申请后,按钮会变为可点状态。 在完成运维操作后,
了一组C函数,用于读取、修改和创建ELF文件,而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。 安装过程中的提示均选OK或YES,安装好后执行reboot重启机器,再次登录后执行命令查看GPU卡信息。 nvidia-smi -pm 1 #该命
访问在线服务(Token认证) 若在线服务的状态处于“运行中”,则表示在线服务已部署成功,部署成功的在线服务,将为用户提供一个可调用的API,此API为标准Restful API。在集成至生产环境之前,需要对此API进行调测,您可以使用以下方式向在线服务发起预测请求: 方式一:使
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
sh”脚本需要以LF作为换行符。使用CRLF作为换行符会导致训练作业运行失败,日志中会打印“$'\r': command not found”的错误信息。 训练脚本mpi-verification.py文件内容如下: import os import socket if __name__
sh”脚本需要以LF作为换行符。使用CRLF作为换行符会导致训练作业运行失败,日志中会打印“$'\r': command not found”的错误信息。 训练脚本mpi-verification.py文件内容如下: import os import socket if __name__
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
本案例的训练作业预计运行十分钟。 单击训练作业名称,进入作业详情界面查看训练作业日志信息,观察日志是否有明显的Error信息,如果有则表示训练失败,请根据日志提示定位原因并解决。 在训练详情页左下方单击训练输出路径,如图4所示,跳转到OBS目录,查看是否存在model文件夹,且model文件夹中是否
本案例的训练作业预计运行十分钟。 单击训练作业名称,进入作业详情界面查看训练作业日志信息,观察日志是否有明显的Error信息,如果有则表示训练失败,请根据日志提示定位原因并解决。 在训练详情页左下方单击训练输出路径,如图4所示,跳转到OBS目录,查看是否存在model文件夹,且model文件夹中是否
通过Token认证的方式访问在线服务 如果在线服务的状态处于“运行中”,则表示在线服务已部署成功,部署成功的在线服务,将为用户提供一个可调用的API,此API为标准Restful API。在集成至生产环境之前,需要对此API进行调测,您可以使用以下方式向在线服务发起预测请求: 方
ux.go:224: exec user process caused "exet format error" 原因分析:可能由于训练规格错误导致训练作业卡死。 解决方法:请参考说明查询资源规格。 报错信息:报错镜像失败,报错:401,'Unauthorized',b'{erro
npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0