检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
处理方法 重新构建镜像。 在构建镜像的dockerfile文件中安装pip依赖包,例如安装Flask依赖包。
处理方法 您需要通过在代码中设置环境变量“TF_CPP_MIN_LOG_LEVEL”来屏蔽INFO级别的日志信息。
处理方法 通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。 父主题: Ascend相关问题
获取方法请参见获取项目ID和名称。 worker_id 是 String 标注团队成员ID。 workforce_id 是 String 标注团队ID。
获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID,如需批量删除多个服务,则将多个service_id使用英文半角逗号拼接。
__call__()”方法来生成最终的结果。
图1 vscode-scp-done.flag本地成功上传 解决方法 执行如下命令查看远端是否上传。
处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。
处理方法 参考如下代码,三步走。 先卸载numpy中可以卸载的组件。 删除你环境中site-packages路径下的numpy文件夹。 重新进行安装需要的版本。
获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 description 否 String 数据处理任务描述,长度为0-256位,不能包含^!<>=&"'特殊字符。
删除/退订节点: 如果是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。 如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,即可实现对多个节点的资源释放。
info = Estimator.get_framework_list(session=session) print(info) 参数说明 表1 get_train_instance_types参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法请参考
处理方法 第二次增量训练设置的epochs数值需要大于第一次常规训练设置的epochs数值。
希望了解ModelArts的权限控制能力细节,期望理解其概念和实操方法。
处理方法 如果是多个节点复制不同步,并且没有barrier的话导致的超时,可以在复制数据之前,先进行torch.distributed.init_process_group(),然后再根据local_rank()==0去复制数据,之后再调用torch.distributed.barrier
处理方法 建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。 如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。
获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 networkCidrs Array of strings 网络配置项。 networkQuota Integer 用户可创建网络个数配额。
获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 deleteNodeNames 是 Array of strings 待删除的节点名称列表。
原因分析 ModelArts.3551:数据输入或者输出的obs目录不存在 ModelArts.3567:使用的数据输入或者输出obs目录存在,但是当前账号无权限访问 处理方法 ModelArts.3551:到obs检查输入数据目录是否存在,如果不存在,请按照实际需要创建obs目录
None errorMessage:None reason:Forbidden request-id:00000179D5ACCAC445CAA1A71019C9D0 retry:0 原因分析 出现该问题的可能原因如下: OBS服务的权限出现问题,导致无法正常读取数据 处理方法