检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
务的输入参数,即上文提到的输入请求类型。 图1 查看服务的调用指南 调用指南中的输入参数取决于您选择的模型来源: 如果您的元模型来源于自动学习或预置算法,其输入输出参数由ModelArts官方定义,请直接参考“调用指南”中的说明,并在预测页签中输入对应的JSON文本或文件进行服务测试。
Boolean SMN开关。 subscription_id String SMN消息订阅ID。 exeml_template_id String 自动学习模板ID。 last_modified_at String 最近一次修改的时间。 package WorkflowServicePackege
对应用户的授权内容,查看授权详情。如果没有对应权限,需要到统一身份认证服务给对应委托中加上对应权限。 图1 权限管理 图2 查看权限详情和去IAM修改委托权限 图3 给委托添加授权 将镜像设置成私有镜像 登录容器镜像服务(SWR),左侧导航栏选择“我的镜像”,查看镜像详情,单击右
在开发环境(notebook)申请相同规格的开发环境实例。 在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。
复制数据之前,先进行torch.distributed.init_process_group(),然后再根据local_rank()==0去复制数据,之后再调用torch.distributed.barrier()等待所有rank完成复制。具体可参考如下代码: import moxing
PU卡损坏的情况,导致实际能检测到的卡少于所选规格。 处理方法 建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。 如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。 建议与总结 在创建训练作业前,推荐您先使用ModelA
模型精度信息,从配置文件读取,可不填。非模板参数 source_type 否 String 模型来源的类型,当前仅可取值“auto”,用于区分通过自动学习部署过来的模型(不提供模型下载功能);用户通过训练作业和其他方式部署的模型不设置此值。默认值为空。非模板参数 dependencies 否
在开发环境(notebook)申请相同规格的开发环境实例。 在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。
操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“自动重启”开关
认里面自带的。 如果必须指定卡ID,需要注意1/2/4规格下,指定的卡ID与实际分配的卡ID不匹配的情况。 如果上述方法还出现了错误,可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量,或者用以下代码测试,查看结果是否返回的是True。 import torch
c字段配套。 weight Integer 权重,分配到此模型的流量权重。 source_type String 模型来源,当模型是由自动学习产生时返回此字段,取值为auto。 model_id String 模型ID。 src_path String 批量任务输入数据的OBS路径,例如:“https://xxx
true, "default": 0.001, "help": "学习率" }, { "name": "
在产品配置信息确认页面,再次核对弹性公网IP信息,阅读并勾选“弹性公网IP服务声明”。 选择按需计费的弹性公网IP时,单击“提交”。 选择包年/包月计费的弹性公网IP时,单击“去支付”。 进入订单支付页面,确认订单信息,单击“确认付款”。 购买公网NAT网关。 登录华为云管理控制台。 在左侧服务列表中,单击“网络 >
Boolean SMN开关。 subscription_id String SMN消息订阅ID。 exeml_template_id String 自动学习模板ID。 last_modified_at String 最近一次修改的时间。 package WorkflowServicePackege
在弹出的“转包周期”页面,确认无误后单击“确定”。 图1 转包周期 选择弹性集群的购买时长,判断是否勾选“自动续费”,确认预计到期时间和配置费用后单击“去支付”。 进入支付页面,选择支付方式,确认付款,支付订单后即可完成按需转包年/包月。
选择资源的续费时长,判断是否勾选“统一到期日”,将资源的到期时间统一到各个月的某一天(详细介绍请参见统一包年/包月资源的到期日)。确认配置费用后单击“去支付”。 进入支付页面,选择支付方式,确认付款,支付订单后即可完成续费。 统一包年/包月资源的到期日 如果您持有多台到期日不同的专属资源池,
Studio首页单击“购买套餐包”,进入购买页面。 在“购买”页面,选择套餐包“规格”和“购买数量”,单击“立即购买”,确认订单详情,单击“去支付”,根据界面提示完成套餐包支付。 支付完成后,在ModelArts Studio大模型即服务平台创建任务时,选择套餐包规格的公共资源池,在运行任务时即可优先使用套餐包资源。
务执行过程中需要访问用户的其他服务,例如训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是一个“委托”的过程
ModelArts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是一个“委托”的过程
otal HBM多比特错误隔离内存页数量。 个 ≥0 连续2个周期原始值 >= 64 严重 若此计数达到64及以上,请提交工单,切换NPU机器。 AI处理器Vector CORE利用率 ma_node_npu_vector_core_util 昇腾系列AI处理器Vector Core利用率。