检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择模型服务,单击操作列的“更多 > 服务升级”。 在服务升级页面,配置升级参数。 “模型设置”:单击“更换”,选择原模型下的其他模型版本。 其他参数不可修改,但可以了解原模型服务的配置。 配置完成后,单击“提交”启动服务升级。 父主题: 管理我的服务
modelarts:network:get modelarts:workspace:get 创建训练作业和查看训练日志。 建议配置。 仅在严格授权模式开启后,需要显式配置左侧权限。 modelarts:workspace:getQuotas 查询工作空间配额。如果开通了工作空间功能,则需要配置此权限。 按需配置。
选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”,用户可以基于业务需要选择任务所需的资源卡数。 在“运行时长控制”选择是否指定运行时长。 不限时长:不限制作业的运行时长,AI Gallery工具链服务部署完成后将一直处于“运行中”。
Profiler接口可全面采集PyTorch训练场景下的性能数据,主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础:步骤三 启动训练脚本 新加DO_PROFILER=1和PR
登录ModelArts控制台,在贵阳一区域,进入开发环境的Notebook界面,单击右上角“创建”,创建一个开发环境。创建Notebook的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。
登录ModelArts控制台,在贵阳一区域,进入开发环境的Notebook界面,单击右上角“创建”,创建一个开发环境。创建Notebook的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。
登录ModelArts控制台,在贵阳一区域,进入开发环境的Notebook界面,单击右上角“创建”,创建一个开发环境。创建Notebook的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图1
flow”,进入我的Workflow页面。 在“我的发布”页签中查看发布到AI Gallery的工作流。 图1 发布的Workflow 您可以单击工作流名称,查看发布的工作流详情。 其中release_to_gallery()方法包含以下入参: 参数名称 描述 是否必填 参数类型
作负载。 节点存储。多个容器可能会共享这一个存储,会存在写冲突的问题。 Pod删除后,存储不会清理。 使用主机路径 OBS 适用于训练数据集的存储。 对象存储。常用OBS SDK进行样本数据下载。存储量大,但是离节点比较远,直接训练速度会比较慢,通常会先将数据拉取到本地cache,然后再进行训练任务。
backend service due to connection refused. " 出现该报错有两种情况: 流量超过了模型的处理能力。可以考虑降低流量或者增加模型实例数量。 镜像自身有问题。需要单独运行镜像确保镜像本身能正确提供服务。 "error_msg":"Due to self
登录ModelArts控制台,在贵阳一区域,进入开发环境的Notebook界面,单击右上角“创建”,创建一个开发环境。创建Notebook的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图1
登录ModelArts控制台,在贵阳一区域,进入开发环境的Notebook界面,单击右上角“创建”,创建一个开发环境。创建Notebook的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。
kpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练,加载中断生成的checkpoin
登录ModelArts控制台,在贵阳一区域,进入开发环境的Notebook界面,单击右上角“创建”,创建一个开发环境。创建Notebook的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。
登录ModelArts控制台,在贵阳一区域,进入开发环境的Notebook界面,单击右上角“创建”,创建一个开发环境。创建Notebook的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。
Profiler接口可全面采集PyTorch训练场景下的性能数据,主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础:步骤三 启动训练脚本 新加DO_PROFILER=1和PR
Profiler接口可全面采集PyTorch训练场景下的性能数据,主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础:步骤三:启动训练脚本 新加DO_PROFILER=1和PR
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其
号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Notebook中,使用moxing接口,访问对应的OBS桶,并读取数据。举例如下: import moxing as mox mox.file
指使用密钥对作为登录裸金属服务器的鉴权方式。您可以选择使用已有的密钥对,或者单击“新建密钥对”创建新的密钥。 说明: 如果选择使用已有的密钥,请确保您已在本地获取该文件,否则,将影响您正常登录裸金属服务器。 密码 指使用设置初始密码方式作为裸金属服务器的鉴权方式,此时,您可以通过用户名密码方式登录裸金属服务器。