检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
limits: huawei.com/ascend-1980: "8" # 限制卡数,key保持不变。 volumeMounts: # 容器内部映射路径
import_origin 否 String 数据来源。可选值如下: obs:OBS桶(默认值) dws:GaussDB(DWS)服务 dli:DLI服务 rds:RDS服务 mrs:MRS服务 inference:推理服务 import_path 是 String 导入的OBS路径或manifest路径。
NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支持模糊匹配查询。限制128个字符,支持大小写字母、数字、中划线和下划线。 pool_id 否 String 专属资源池ID,获取方法请参见查询资源池列表。 offset
NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支持模糊匹配查询,限制128个字符,支持大小写字母、数字、中划线和下划线。 pool_id 否 String 专属资源池ID。 offset 否 Integer
根据具体报错信息定位到报错的代码行,分析上下文逻辑。 历史SDK包常见的报错如下 服务部署节点运行报错 输入服务相关的参数后,执行报错如下: 解决方案 以上两种常见报错均可通过升级最新的SDK包解决。 父主题: Standard Workflow
train_instance_type 是 String 训练作业选择的资源规格,请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。 framework_type 否 String 训练作业选择的引擎规格,请参考查询引擎规格列表。 framework_version
Server上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模型的训练过程,包括Finetune训练、LoRA训练和Controlnet训练。 约束限制 本方案目前仅适用于企业客户。 本文档适配昇腾云ModelArts 6.3.908版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。
Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支持在专属资源池上运行,确保专属资源池可以访问公网。 文档更新内容
AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description String 该镜像所对应的描述信息,长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。
AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description String 该镜像所对应的描述信息,长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。
夹、查询、移动、复制、删除等。 在ModelArts Notebook中使用MoXing接口时,可直接调用接口,无需下载或安装SDK,使用限制比ModelArts SDK和OBS SDK少,非常便捷。 详细指导:《MoXing开发指南》 父主题: API/SDK
accept 是 Boolean 是否通过。可选值如下: true:通过 false:不通过 comment 否 String 评审意见,限制长度为[0,256],且不能包含!<>=&"'字符。 sample_id 否 String 样本ID,可调用查询样本列表接口获取。 score
建Notebook实例。 镜像选择已注册的自定义镜像,资源类型选择创建好的专属资源池,规格推荐选择“Ascend: 8*ascend-snt9b”。 图1 Notebook中选择自定义镜像与规格 存储配置选择“弹性文件服务SFS”,并且选择已创建的SFS Turbo实例。如果该SFS
自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。 父主题: Standard功能介绍
路径,“default-shm-size”代表容器启动默认分配的共享内容大小,不配置时默认为64M,可以根据需要改大,避免分布式训练时共享内存不足导致训练失败。 图10 docker配置 保存后,执行如下命令重启docker使配置生效。 systemctl daemon-reload
训练的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买Lite Server资源。 本方案目前仅适用于企业客户。 资源规格要求 推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend Snt9B单机单卡。 表1 环境要求 模型 版本 CANN
规格请在华为云创建工单,由ModelArts运维工程师添加权限。 instance_count 是 Integer 模型部署的实例数,当前限制最大实例数为128,如需使用更多的实例数,需提交工单申请。 envs 否 Map<String, String> 运行模型需要的环境变量键值对,可选填,默认为空。
rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240606190017-b881580 从SWR拉取。 约束限制 请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 本方案使用需要用户具备k8s集群相关技能。 Step1 准备环境
计费项 计费项说明 适用的计费模式 计费公式 计算资源 公共资源池 使用计算资源的用量。 具体费用可参见ModelArts价格详情。 按需计费 规格单价 * 计算节点个数 * 使用时长 专属资源池 专属资源池的费用已在购买时支付,部署服务不再收费。 专属资源池的费用请参考专属资源池计费项。
创建训练作业标签 删除训练作业标签 查询训练作业标签 获取训练作业事件列表 创建训练作业镜像保存任务 查询训练作业镜像保存任务 获取训练作业支持的公共规格 获取训练作业支持的AI预置框架