检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地IDE开发模型。
string", "error_code": "ModelArts.0105" } 状态码 状态码请参见状态码。 父主题: 训练作业参数配置
string", "error_code": "ModelArts.0105" } 状态码 状态码请参见表1。 父主题: 训练作业参数配置
ibstat查看网卡非Active状态。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 配置节点告警通知 节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。 以下步骤基于AOM2.0配置。 登录AOM控制台。 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”,创建告警规则。
Query参数 参数 是否必选 参数类型 说明 config_type 否 String 指定要查询的配置类型,可选值有以下两种 “custom”为查询用户自定义配置。 “sample”为查询示例配置,默认为“custom”。 请求消息 无。 响应消息 响应参数如表3所示。 表3 响应参数 参数
如果出现以下信息则表示创建成功。 uid=1000(ma-user) gid=100(ma-group) groups=100(ma-group) 父主题: 基本配置
string", "error_code": "ModelArts.0105" } 状态码 状态码请参见表1。 父主题: 训练作业参数配置
创建模型失败,如何定位和处理问题? 问题定位和处理 创建模型失败有两种场景:创建模型时直接报错或者是调用API报错和创建模型任务下发成功,但最终模型创建失败。 创建模型时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。 创建模型任务
如何在Notebook中安装外部库? ModelArts Notebook中已安装Jupyter、Python程序包等多种环境,包括TensorFlow、MindSpore、PyTorch、Spark等。您也可以使用pip install在Notobook或Terminal中安装外部库。
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
客户创建了多个虚拟环境,numba库安装在了python-3.7.10中,如图1所示。 图1 查询创建的虚拟环境 解决方案 在Terminal中执行conda deactivate命令退出当前虚拟环境,默认进入base环境。执行pip list命令查询已安装的包,然后安装需要的依赖进行保存,最后切换至指定的虚拟环境后再运行脚本。
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
lerOS。 图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
lerOS。 图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
lerOS。 图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
lerOS。 图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net