检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
--trust-remote-code 方式三:多机部署vLLM服务API接口启动服务(可选) 当单机显存无法放下模型权重时,可选用该种方式部署;该种部署方式,需要机器在同一个集群,NPU卡之间IP能够ping通方可,具体步骤如下: 查看卡IP。 for i in $(seq 0 7);do hccn_tool
自动续费 自动续费可以减少手动续费的管理成本,避免因忘记手动续费而导致ModelArts中专属资源池不能使用。自动续费的规则如下所述: 以专属资源池的到期日计算第一次自动续费日期和计费周期。 专属资源池自动续费周期以您选择的续费时长为准。例如,您选择了3个月,专属资源池即在每次到期前自动续费3个月。
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析 SWR侧看到的大小是镜像压缩后的大小,解压后实际大小一般是压缩后的2
自定义镜像训练作业失败定位思路 问题现象 使用自定义镜像训练作业时,训练失败。 定位思路 确定镜像来源 确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像,推荐用户使用ModelArts的基础镜像构建自定义镜像,具体请参见使用ModelArts的基础镜像构建新的训练镜像。
可能是密钥文件或放置密钥的文件夹权限问题,密钥不正确等,请按以下步骤排查。 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,权限不能过于宽松,以保证用户隔离和安全。修改方法如下。 chomd 755 /home/ma-user chomd 750 /home/ma-user
name="model_registration", # 模型注册节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符),一个Workflow里的两个step名称不能重复 title="模型注册", # 标题信息 inputs=wf
创建训练作业时出现“实例挂卷失败”的事件 问题现象 训练作业的状态一直在“创建中”,查看训练作业的“事件”,有异常信息“实例挂卷失败”,详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x]”。
磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会
上传镜像至SWR服务 Step7 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表
在创建自动学习项目页面,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。
需计费”,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。
训练作业运行失败,出现NCCL报错 问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN
值,并在后续节点中使用。 针对部署在公共资源池的服务,可以通过access_address属性从输出中获取注册在公网的推理地址。 针对部署在专属资源池的服务,除了可以获取注册在公网的推理地址,还能通过cluster_inner_access_address属性从输出中获取内部使用