检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
请注意,数据处理任务删除后不可恢复,请谨慎操作。 处于“完成”、“失败”、“已停止”、“运行失败”、“部署中”状态的训练作业,您可以单击操作列的“删除”,删除对应的数据处理任务。
更多相关操作 其它更多操作如下: 节点池管理操作请参见管理Lite Cluster节点池 节点管理操作请参见管理Lite Cluster节点 扩缩容Lite Cluster资源池操作请参见扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动操作请参见升级Lite
发布镜像到AI Gallery 除了Gallery提供的已有资产外,还可以将个人创建的资产发布至Gallery货架上,供其他AI开发者使用,实现资产共享。 镜像资产上架 登录AI Gallery,选择右上角“我的Gallery”。 在“我的资产 > 镜像”下,选择未发布的镜像,单击镜像名称
准备模型训练镜像 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。 训练作业的预置框架介绍
status_message String 镜像保存操作过程中,构建信息展示。 swr_path String SWR镜像地址。 tag String 镜像Tag。 type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。
此次操作分为以下流程: 准备工作 创建数据集 数据分析 数据标注 数据发布 数据导出 准备工作 在使用ModelArts数据管理的功能前,需要先完成以下准备工作。
用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found) 问题现象 用户使用ma-cli制作自定义镜像失败,报错文件目录不存在。 图1 报错xxx not found 原因分析 复制的文件需要放在Dockerfile同级文件夹或者子目录中,不能放在Dockerfile
处理方法 如果超过最大递归深度,建议您在启动文件中增大递归调用深度,具体操作如下: import sys sys.setrecursionlimit(1000000) 父主题: 业务代码问题
训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。
HCE2.0(推荐)/EulerOS 2.10 Lite模式Cluster节点操作系统 EulerOS 2.10(CCE标准版)/HCE2.0(CCE Turbo) Standard模式集群节点操作系统 EulerOS 2.10(CCE标准版) NPU固件&驱动 7.1.0.9.220
status_message String 镜像保存操作过程中,构建信息展示。 support_res_categories Array of strings 镜像支持的规格。 枚举值如下: CPU GPU ASCEND swr_path String SWR镜像地址。
不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 >数据集”,进入“数据集”管理页面。 在数据集所在行,单击操作列的“导入”。
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
ECS中上传新镜像 Step1 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将
如果未配置,请参见配置ModelArts Standard访问授权完成操作。 已经准备好训练算法,具体操作请参见创建算法。 操作流程介绍 创建训练作业的操作步骤如下所示。 进入创建训练作业页面。 配置训练作业基本信息。 根据不同的算法来源,选择不同的训练作业创建方式。
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
ModelArts Lite Server使用ECS服务器时不支持重装操作系统,部分区域使用裸金属服务器时也不支持重装操作系统,如果您想重装操作系统,您可通过切换操作系统的方式解决。更多信息,请参见Server使用前须知。
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” 问题现象 镜像保存时报错BuildImage,True,Commit successfully|PushImage,False
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作。 云监控可以帮助用户更好地了解服务和模型的各项性能指标。 详细内容请参见ModelArts支持的监控指标。 父主题: 安全