检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
命令执行也建议使用ma-user用户。 Step3 获取代码包并安装依赖 下载插件代码包AscendCloud-3rdAIGC-6.3.905-xxx.zip文件,上传到容器的/home/ma-user/目录下,解压并安装相关依赖。获取路径参见获取软件和镜像。 mkdir -p
操作流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备资源 本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。
操作流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备资源 本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。
操作流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备资源 本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。
操作流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备资源 本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。
训练作业容错检查 用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离
版本配套关系使用本文档。 确保容器可以访问公网。 步骤一:检查环境 请参考Lite Server资源开通,购买Lite Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买Server资源时如果无可选资源规格,需要联系华为云技术支持申请开通。
本文价格仅供参考,实际计算请以ModelArts价格详情中的价格为准。 变更配置后对计费的影响 如果您在购买按需计费资源池后变更了规格配置,会产生一个新订单并开始按新配置的价格计费,旧订单自动失效。 如果您在一个小时内变更了规格配置,将会产生多条计费信息。每条计费信息的开始时间和结束时间对应不同配置在该小时内的生效时间。
Turbo的存储加速实践。 设置训练存储加速 当完成上传数据至OBS并预热到SFS Turbo中步骤后,在ModelArts Standard中创建训练作业时,设置训练“SFS Turbo”,在“文件系统”中选择SFS Turbo实例名称,并指定“存储位置”和“云上挂载路径”。系统会在训练作业启
欠费说明 用户在使用云服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费原因 已购买资源包,但使用量超出资源包额度或资源包属性与桶属性不匹配,进而产生按需费用,同时账户中的余额不足以抵扣产生的按需费用。请参考如何
单词或者句子,可以让它自行地随机生成后续的文本。 环境准备 在华为云ModelArts Server预购相关超强算力的GPU裸金属服务器,并选择AIGC场景通用的镜像,完成使用Megatron-DeepSpeed训练GPT2模型。本最佳实践使用以下镜像和规格: 镜像选择:Ubuntu
ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward 查看环境是否已安装并配置Ascend-docker-runtime。 docker info |grep Runtime 如果输出的runtime为“ascen
查询用户镜像组列表 查询用户镜像信息概览,以镜像名称作为聚合的信息。 查询镜像详情 查询镜像详情。 删除镜像 删除镜像对象,对于个人私有镜像可以通过参数一并删除SWR镜像内容。 训练管理接口 表6 算法管理接口 API 说明 创建算法 创建一个算法。 查询算法列表 查询算法列表。 查询算法详情 根据算法ID查询指定算法。
String 图像缩略设置,同OBS缩略图设置,详见OBS缩略图设置。如:image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 result_property 否 String 样本状态,不传或传-1默认返回全部样本。可选值如下: -1:全部 0:保留
如果专属资源池的规格与您的业务不符,可通过扩缩容Standard专属资源池来调整专属资源池的规格。 每个用户对集群的驱动要求不同,在专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。ModelArts提供了自助升级专属资源池GPU/Ascend驱动的能力,可参考升级Standard专属资源池驱动进行升级。
为8。 vi config.yaml 图3 修改卡数 重新创建pod。 kubectl apply -f config.yaml 进入容器并查看卡信息,{pod_name}替换为您的pod名字,{namespace}替换为您的命名空间(默认为default)。 kubectl exec
object 数据处理任务的工作目录。 workspace_id 否 String 工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表3 ProcessorDataSource 参数 是否必选 参数类型 描述 name 否 String 数据集的名称。
当Notebook实例不再需要时,调用删除Notebook实例接口删除实例。 前提条件 已获取IAM的EndPoint和ModelArts的EndPoint。 确认服务的部署区域,获取项目ID和名称、获取帐号名和帐号ID和获取用户名和用户ID。 操作步骤 调用认证鉴权接口获取用户的Token。 请求消息体: URI格式:POST
在ModelArts官方提供的基础镜像上,构建一个用于ModelArts Standard推理部署的镜像。 在模型软件包和依赖包的同层目录下,创建并编辑Dockerfile。 vim Dockerfile Dockerfile内容如下: FROM swr.cn-southwest-2.myhuaweicloud
object 数据处理任务的工作目录。 workspace_id String 数据处理任务的工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表3 ProcessorDataSource 参数 参数类型 描述 name String 数据集的名称。