检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成 整数15099494 父主题: 常见错误原因和解决方法
单击“编辑”,查看高级配置的“plugins”参数下是否有“{"name":"cabinet"}”,如图2所示。 图2 Volcano调度器的高级配置 是,则执行2。 否,则在高级配置的“plugins”参数下添加“{"name":"cabinet"}”,单击下方的“安装”使Volcano调度器更新配置,完成滚动重启。
以参考表1按照实际需求修改。 表1 训练超参配置说明 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。
参数类型 描述 on_failure String 定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 创建Workflow定时调度。设置类型为“time”,动作为“run”,调度策略on_failure为“re
[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成 整数15099494 父主题: 常见错误原因和解决方法
只有当创建团队标注任务时,标注人员才会收到邮件。创建标注团队及添加标注团队的成员并不会发送邮件。 请确保您的邮箱已完成配置且配置无误。可参考管理成员,完成邮箱配置。 团队成员自检其邮箱是否有拦截设置。 父主题: Standard数据准备
欠费后,ModelArts的资源是否会被删除? 欠费后,ModelArts的资源不会被立即删除。 欠费后,您可以在“费用中心”查看欠费详情。为了防止相关资源不会被停止服务或者逾期释放,您需要及时进行还款或充值。 查询欠费步骤 登录管理控制台。 单击页面右上角的“费用”进入“费用中心”页面。
专属资源池创建训练作业 创建训练作业界面无云存储名称和挂载路径排查思路 父主题: 训练作业
更新标注团队成员 功能介绍 更新标注团队成员。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{project_id}/workforces/{wo
资源和引擎规格接口 查询作业资源规格 查询作业引擎规格 父主题: 训练管理(旧版)
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务 在Lite Cluster资源池上使用Ascend
--nproc_per_node=1 train.py --model DiT-XL/2 --data-path imagenet/train --global-batch-size 16 多卡训练启动方式: torchrun --nnodes=1 --nproc_per_node=8 train.py --model
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: OBS操作相关故障
服务部署,请参考统一镜像列表。 表1 MindSpore 预置镜像 适配芯片 适用范围 mindspore_2.3.0-cann_8.0.rc1-py_3.9-euler_2.10.7-aarch64-snt9b Ascend snt9b Notebook、训练、推理部署 mindspore_2
行解压缩。 准备训练脚本。 from modelarts.train_params import TrainingFiles code_dir = os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中,实际上训练
径,不填则使用工具自带基线配置,包含loss、score、mmlu_score、ceval_score基线值;默认基线配置样例如下: 客户使用工具自带精度基线Yaml则需使用modellink_accuracy_baseline.yaml文件中默认配置,权重使用表1 模型权重中指
制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法 在ECS上构建自定义镜像并在Notebook中使用 在Notebook中通过Dockerfile从0制作自定义镜像 在Notebook中通过镜像保存功能制作自定义镜像 父主题: 制作自定义镜像用于ModelArts
"fengbin26" ], "entity" : "238947895793875835893490", "events" : [ "*:failed,completed", "job_step:stop" ] } 响应示例 状态码:200 订阅信息。 { "topic_urns"
status String 动态挂载OBS状态。枚举值如下: MOUNTING:挂载中 MOUNT_FAILED:挂载失败 MOUNTED:已挂载 UNMOUNTING:卸载中 UNMOUNT_FAILED:卸载失败 UNMOUNTED:卸载完成 uri String OBS对象路径。 请求示例
导入任务的当前状态。可选值如下: QUEUING:排队中 STARTING:开始执行 RUNNING:运行中 COMPLETED:已完成 FAILED:已失败 NOT_EXIST:不存在 task_id String 任务ID。 total_file_count Long 总文件数。