检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像 父主题: 准备工作
恢复,发起维修流程。 配置节点告警通知 节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。 以下步骤基于AOM2.0配置。 登录AOM控制台。 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”,创建告警规则。 设置告警规则(以NPU掉卡为例)。
调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 spec_total_count Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String
上传OBS的操作步骤: 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Brows
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直
载权限,请联系您所在企业的华为方技术支持下载获取。 修改代码 将AscendSpeed代码包AscendCloud-LLM-xxx.zip在本地解压缩后。在上传代码前,需要对解压后的训练脚本代码进行修改。具体文件为:修改llm_train/AscendSpeed/scripts/dev_pipeline
上传OBS操作步骤: 执行如下操作,将数据上传到OBS中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Brows
前提条件 数据集功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据集功能之前,请前往“权限管理”页面,使用委托完成访问授权。 已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。当前不支持OBS并行文件系统,请选择OBS对象存储。
上传OBS的操作步骤: 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Brows
Turbo的存储加速实践。 设置训练存储加速 当完成上传数据至OBS并预热到SFS Turbo中步骤后,在ModelArts Standard中创建训练作业时,设置训练“SFS Turbo”,在“文件系统”中选择SFS Turbo实例名称,并指定“存储位置”和“云上挂载路径”。系统会在训练
/v1/{project_id}/dev-servers modelarts:devserver:create ecs:serverKeypairs:createecs:*:get iam:users:getUser iam:users:listUsers iam:projects:listProjects
策略。 在IAM控制台创建用户组并授权。 在IAM控制台创建用户组之后,将步骤1中创建的自定义策略授权给该用户组。 创建用户并加入用户组。 在IAM控制台创建用户,并将其加入3中创建的用户组。 用户登录并验证权限。 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表
策略。 在IAM控制台创建用户组并授权。 在IAM控制台创建用户组之后,将步骤1中创建的自定义策略授权给该用户组。 创建用户并加入用户组。 在IAM控制台创建用户,并将其加入3中创建的用户组。 用户登录并验证权限。 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表
查看Prometheus采集的指标数据 在CCE页面为Prometheus所在节点绑定弹性公网IP,并打开节点的安全组配置,添加入方向规则,允许外部访问9090端口。 如果使用Grafana对接Prometheus制作报表,可以将Grafana部署在集群内,这里不需要对Promethe
/ "No space") 解决方法 在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。 如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决: 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署”,进入目标服务类型管理页面。 在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。 当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,会有弹窗提醒。
登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署”,进入目标服务类型管理页面。 在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。 当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,
后app_url/boot_file_url和engine_id不需填写。 parameter 否 Array<Object> 训练作业的运行参数,为“label-value”格式;当为自定义镜像训练作业的时候,此参数为容器环境变量。该样例请参考表4。 spec_id 是 Long