检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。 训练作业的预置框架介绍 ModelArts中预置的训练基础镜像如下表所示。 表1 ModelArts训练基础镜像列表 引擎类型 版本名称 PyTorch
工作空间 ModelArts的用户需要为不同的业务目标开发算法、管理和部署模型,此时可以创建多个工作空间,把不同应用开发过程的输出内容划分到不同工作空间中,便于管理和使用。 工作空间支持3种访问控制: PUBLIC:租户(主账号和所有子账号)内部公开访问。 PRIVATE:仅创建者和主账号可访问。
Notebook自带moxing、modelart-sdk等功能,会将这些包嵌入到用户Conda环境。 解决方案 如果不需要使用moxing、sdk等功能,可以暂时删除modelarts.pth文件。 执行如下命令在用户运行的Conda环境下查找modelarts.pth。 # /home/ma-
克隆GitHub开源仓库文件到JupyterLab 在Notebook的JupyterLab中,支持从GitHub开源仓库Clone文件。 通过JupyterLab打开一个运行中的Notebook。 单击JupyterLab窗口上方导航栏的ModelArts Upload Fil
在“流水账单”列表页,罗列该账号下各种产品类型,每个任务产生的费用详细。您可以单击“操作 > 详情”,查看使用量详情。可拖动详情下方的进度条,查看“使用量”、“应付金额”等信息。 图1 流水账单 在“明细账单”列表页,罗列了该账号下各种资源的计费模式、使用量和单价等信息。可以按账期、统计维度和统计周期筛选查看明细账单。
致的。您可以根据提示信息进行排查修改即可。 创建模型任务下发成功,但最终模型创建失败。需要从以下几个方面进行排查: 在模型详情页面,查看“事件”页签中的事件信息。根据事件信息分析模型失败原因,进行处理。 如果模型状态为“构建失败”,可以在模型详情页面,查看“事件”页签中的“查看构
请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否
如何查看ModelArts训练作业资源占用情况? 在ModelArts管理控制台,选择“模型训练>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。 MEM
发布需求 如果你已经注册成为了AI Gallery平台上的合作伙伴,你可以在AI Gallery上发布你的需求。 在“AI Gallery”页面中,单击右上角“我的Gallery > 我的主页”进入个人中心页面。 左侧菜单栏选择“我的需求”进入我的需求列表页,单击右上方的“发布”,进入发布需求页面。
成本构成 ModelArts提供AI工具链、AI算力,成本由AI算力的资源成本和运维成本构成。 成本分配 ModelArts支持企业项目管理,可以由企业项目服务来管理同一账号下不同项目的成本。 成本分析 通过华为云费用账单来分析账号下的成本支出情况。 成本优化 长期使用的资源,建议客
up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。 原因分析 Tensorflow分布式有多种执行模式,mox会通过4次执行50 step记录执行时间,选择执行时间最少的模型。 处理方法 创建训练作业时,在“运行参数”中增加参数“variable_upda
ser/modelarts/user-job-dir”目录中。 bash /home/ma-user/modelarts/user-job-dir/run_train.sh #训练自定义镜像-预置命令场景 运行命令就可以设置为: bash /home/ma-user/model
出现该问题的可能原因如下: 用户的自定义镜像中无ascend_check工具,导致启动预检失败。 用户的自定义镜像中的ascend相关工具不可用,导致预检失败。 处理方法 通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。
Ascend训练场景下,当训练进程退出后,ModelArts会上传训练容器中的日志文件至“作业日志路径” 参数设置的OBS目录中。在作业详情页可以获取“作业日志路径”,单击OBS地址可以直接跳转到OBS控制台查看日志。 图3 日志存放路径 您可以通过ma-pre-start脚本修改默认环境变量配置。
在ModelArts训练作业中如何判断文件夹是否复制完毕? 您可以在训练作业启动文件的脚本中,通过如下方式获取复制和被复制文件夹大小,根据结果判断是否复制完毕: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file'
注册伙伴 仅当暂未注册伙伴的用户可以注册伙伴。 在“AI Gallery”页面中,单击右上角“我的Gallery > 我的主页”进入个人中心页面。 左侧菜单栏选择“解决方案”进入解决方案列表页,单击右上方“发布”进入合作伙伴申请页面。 如果已经是伙伴用户,则会进入发布解决方案页面。
弹性集群Cluster”页面中的Standard资源池或Lite资源池页签中,在包年包月资源池名称的右侧,进入详情页,单击,选择“续费”,按照页面提示跳转到费用中心进行续费操作。 弹性节点Server:在ModelArts控制台“AI专属资源池 > 弹性集群Server”页面中,在对应Serv
或者文件夹里面的内容? 原因分析 通过OBS导入模型时,ModelArts会将指定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下,镜像内路径可以通过self.model_path获取。 处理方法 获取镜像内的路径方法见模型推理代码编写说明。 父主题: 模型管理
在ModelArts中如何查看OBS目录下的所有文件? 在使用Notebook或训练作业时,需要查看目录下的所有文件,您可以通过如下方式实现: 通过OBS管理控制台进行查看。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有
信造成的精度问题,此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致,如AllReduce、AllGather等,利用这一特性,工具将多机模型训练中产生的通信输出存盘,并传输到同一节点来比较其一致性,从而确定模型中通信算子的精度是否存在问