检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本次批量服务的任务结束时间。 描述 您可以单击编辑按钮,添加服务描述。 输入数据目录位置 本次批量服务中,输入数据的OBS路径。 输出数据目录位置 本次批量服务中,输出数据的OBS路径。 模型名称&版本 本次批量服务所使用的模型名称及版本。 运行日志输出 默认关闭,批量服务的运行日志仅存放在ModelArts日志系统。
以添加或取消对应参数的使用情况图。 操作三:鼠标悬浮在图片上的时间节点,可查看对应时间节点的占用率情况。 图1 资源占用情况 表1 参数说明 参数 说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage
实例列表”,在实例列表中单击“Prometheus_AOM_Default”实例。 图2 Prometheus_AOM_Default 从“设置”页签的“Grafana数据源配置信息”区域,获取当前Prometheus实例的Grafana数据源配置代码。 在Grafana中增加数据源。
丰富的官方预置镜像,满足用户的需求。 支持基于预置镜像自定义制作专属开发环境,并保存使用。 丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。 分布式训练调测的能力,可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。 约束限制 总览页面打开的CodeLab不支持此项功能,但是如果用户在AI
ckpt的代码,使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练 在ModelArts Standard训练中实现断点续训练或增量训练,建议使用“训练输出”功能。 在创建训练作业时,设置训练“输出”参数为“train_url”,在指定
Session # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
使用python3.6-torch1.4版本镜像环境安装MMCV报错 问题现象 日志报错中存在AssertionError: MMCV==1.2.5 is used but incompatible. Please install mmcv>=1.3.1, <=1.5.0。 原因分析
创建Workflow节点 创建Workflow数据集节点 创建Workflow数据集标注节点 创建Workflow数据集导入节点 创建Workflow数据集版本发布节点 创建Workflow训练作业节点 创建Workflow模型注册节点 创建Workflow服务部署节点 父主题:
单节点功能,如训练、推理等在ModelArts相应服务中调试通过。 根据节点功能选择相应的代码模板,进行内容的补充。 根据DAG结构编排节点,完成Workflow的编写。 导入Workflow Data包 在编写Workflow过程中,相关对象都通过Workflow包进行导入,梳理如下:
ir/code/train.py 使用Ascend自定义镜像训练时的训练代码适配规范 使用NPU资源创建训练作业时,系统会在训练容器里自动生成Ascend HCCL RANK_TABLE_FILE文件。当使用预置框架创建训练作业时,在训练过程中预置框架会自动解析Ascend HCCL
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。 开启故障自动重启
工作流列表页: 当工作流处于“运行中”时,操作栏会出现“停止”按钮。单击“停止”,出现停止Workflow询问弹窗,单击“确定”。 进入某条运行中的工作流,单击右上角的“停止”按钮,出现停止Workflow询问弹窗,单击确定。 只有处于“运行中”状态的工作流,才会出现“停止”按钮。
首次运行需要配置,会自动创建新的标注任务,后续不建议进行修改,使用同一个标注任务进行数据标注。 图像分类训练参数配置 算法超参相关的配置,建议直接使用默认值。每个参数的具体含义已在控制台界面输入框下方说明。 模型注册参数配置 model_name:填写模型名称,工作流多次运行使用同一个模型名称会自动新增版本。此
权(默认)和AK/SK鉴权; 在使用账号认证时,需要指定username和password;在使用IAM用户认证时,需要指定account、username和password; 在ModelArts Notebook中可以不用执行鉴权命令,默认使用委托信息,不需要手动进行鉴权操作;
CPU规格的机器上,因此上层docker镜像也都是ARM镜像。相对于GPU场景的镜像中安装了与GPU驱动适配的CUDA(由英伟达推出的统一计算架构)计算库,Ascend-Powered-Engine引擎的镜像中安装了与Ascend驱动适配的CANN(华为针对AI场景推出的异构计算架构)计算库。
否 String 模型运行时环境,系统默认使用python2.7。runtime可选值与model_type相关,当model_type设置为Image时,不需要设置runtime,当model_type设置为其他常用框架时,请选择您使用的引擎所对应的运行时环境。目前支持的运行时环境列表请参见推理支持的AI引擎。
复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“故障恢复详情”页签查看故障恢复信息。 图1 查看故障恢复详情 父主题: 模型训练高可靠性
重写模型父类的初始化方法init可能导致模型“运行异常”。 可以使用的属性为模型所在的本地路径,属性名为“self.model_path”。另外pyspark模型在“customize_service.py”中可以使用“self.spark”获取SparkSession对象。 推理代码中,需要通过绝对路径读取文件。模型所在的本地路径可以通过self
设置无条件自动重启 背景信息 训练过程中可能会碰到预期外的情况导致训练失败,且无法及时重启训练作业,导致训练周期长,而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算
参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。 重建作业:建议重建作业进行重试,大概率能修复问题。 上一步不能解决问题时,可以尝试分析日志中提示的错误信息,定位并解决问题。 也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。