检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为默认的工作空间。 ai_project 否 String 指定算法所属的ai项目,默认值为"default-ai-project"。ai项目已下线,无需关注。 表4 AlgorithmJobConfig 参数 是否必选 参数类型 描述 code_dir 否 String 算法的代码
1卡因此在容器中只会显示1卡,说明配置生效。 图2 查看卡信息 修改pod的卡数。由于本案例中为分布式训练,因此所需卡数修改为8卡。 删除已创建的pod。 kubectl delete -f config.yaml 将config.yaml文件中“limit”和“request”改为8。
费用中心 > 总览”的“欠费金额”查看,华为云将在您充值时自动扣取欠费金额。 如果您在宽限期内仍未支付欠款,那么就会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的按需计费资源执行任何操作。 保留期到期后,如果您仍未支付账户欠款,那么计算资源将被释放,数据无法恢复。 华为云
中会持续计费。如果不再使用,需及时删除。包年包月的专属资源池到期后会自动停止使用。 存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除,则会按照OBS的计费规则进行持续计费。 包年/包月资源 对于包年/包月计费模式的资源,用户在购买时会一次性付费,服务将在到期后自动停止使用。
on上的资源和Ascend Snt9B。 如果使用Server资源,请参考Lite Server资源开通,购买Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169
算法代码存储的OBS路径。训练代码、依赖安装包或者预生成模型等训练所需文件上传至该代码目录下。如果自定义镜像中不含训练代码则需要配置该参数,如果自定义镜像中已包含训练代码则不需要配置。 请注意不要将训练数据放在代码目录路径下。训练数据比较大,训练代码目录在训练作业启动后会下载至后台,可能会有下载失败的风险。
设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Turbo,文件系统支持重复挂载,但挂载路径不可重复。文件系统目录需指定已存在的目录,否则会导致训练作业异常。 然后在超参或者环境变量中设置checkpoint和数据的挂载路径。 图3 在超参或者环境变量中设置checkpoint和数据的挂载路径
时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2.myhuaweicloud
驱动 23.0.6 PyTorch 2.1.0 步骤一:检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。
Lora训练使用单机单卡资源。 确保容器可以访问公网。 Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。
为默认的工作空间。 ai_project String 指定算法所属的ai项目,默认值为"default-ai-project"。ai项目已下线,无需关注。 user_name String 用户名称。 domain_id String 用户的domainID。 source String
907-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像 西南-贵阳一: swr.cn-southwest-2
际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2.myhuaweicloud
时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。
训练资源需要使用单机8卡。 确保容器可以访问公网。 Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。
推理需要单机单卡。 确保容器可以访问公网。 Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。
在这里添加 ) 开发态配置 调用工作流对象的run方法,在开始运行时展示输入框,等待用户输入,如下所示: 图1 等待用户输入 要求用户输入已存在的路径,否则会报错,路径格式要求为:/桶名称/文件夹路径/。 运行态配置 调用工作流对象的release方法将工作流发布到运行态,在Mo
142953-ca51f42 SWR上拉取 Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169
训练时指定的输入数据路径。请根据实际规划修改。用户根据训练情况二选一; processed_data_dir /home/ma-user/ws/xxx 已处理好数据路径目录,如有处理完成数据可设置此参数 权重文件、输出目录及其他重要参数设置,详解如下: 参数 示例值 参数说明 model_name_or_path
on上的资源和Ascend Snt9B。 如果使用Server资源,请参考Lite Server资源开通,购买Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169