检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
自定义算子、主动申请GPU显存等操作,则需要额外进行手动迁移适配。 手动迁移解决报错问题。 在完成代码自动迁移后,如果训练代码运行时还出现错误,则代表需要手动迁移适配。针对代码报错处,需要用户分析定位后将自动迁移未能迁移的GPU相关的代码调用修改为NPU对应的接口,请参考昇腾手工迁移文档进行操作。
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。
脚本为: cd /cache/code/ python start_train.py 如果训练流程不符合预期,可以在容器实例中查看日志、错误等,并进行代码、环境变量的修正。 预置脚本测试整体流程 一般使用run.sh封装训练外的文件复制工作(数据、代码:OBS-->容器,输出结果:容器-->OBS),run
} } } } } } ] } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0
过滤xml文件 某些标注“object”中没有矩形框“bndbox” 过滤标注“object” 图片经过裁剪后,xml文件中宽高不符 修改错误宽高参数为图片真实宽高 xml中没有“width”、“height”字段 根据图片真实宽高补全xml中的“width”、“height”字段和值
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
通过SSH工具远程使用Notebook 本节操作介绍在Windows环境中使用PuTTY SSH远程登录云上Notebook实例的操作步骤。 前提条件 创建一个Notebook实例,并开启远程SSH开发,配置远程访问IP白名单。该实例状态必须处于“运行中”,具体参见创建Notebook实例章节。
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书 安全边界
npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0
npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0
distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制Profiling 5、训练过程中报"ModuleNotFoundError:
x_out_len建议设置小一些,比如16。在运行human_eval等生成式回答(生成式回答是对整体进行评测,少一个字符就可能会导致判断错误)时,max_out_len设置建议长一些,比如512,至少包含第一个回答的全部字段。 batch_size:输入的batch_size大小,不影响精度,只影响得到结果速度。
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。