检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练。 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效。 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性。 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力。 SSH直达节点和容器,一致体验。
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 auto_sync_dataset
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 version_id 否 String
ls/{pool_name}/workloads 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 作业所属的命名空间。 表2 Query参数 参数 是否必选
low_id}/service/packages 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 请求参数 表2 请求Body参数 参数
/home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps
--baseline <baseline>:<可选>GP-Ant8机器精度基线Yaml文件路径,不填则使用工具自带基线配置,默认基线配置样例如下: 客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data
--baseline <baseline>:<可选>GP-Ant8机器精度基线Yaml文件路径,不填则使用工具自带基线配置,默认基线配置样例如下: 客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 labels 否 Array
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 delete_policy 否 Integer
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 labels 否 Array
作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl 工具,注意使用的是1.7.6 arm64版本
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 add_labels 否 Array
String 服务描述。 tenant String 服务归属租户。 project String 服务归属项目。 owner String 服务归属用户。 publish_at Number 服务最新的发布时间,距'1970.1.1 0:0:0 UTC'的毫秒数。 infer_type String
/v2/{project_id}/workflows/todolist 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 workspace_id 否 String
Long 训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。 user_name String 训练作业创建用户的用户名,创建成功后由ModelArts生成返回,无需填写。 annotations Map<String,String> 训练作业申明模板,
配置告警通知。 当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,如果不是,则为故障,请联系客户经理发起维修流程(如果无客户经理可提交工单)。 表1 节点故障类型定义 NodeCondition Type 分类 子类 异常中文描述 检测方法 处理建议
en model_name=llama_7b benchmark_type=eval bash -x opencompass.sh 客户端显示运行过程,通过run.py运行。如果同时运行多个数据集,需要将不同数据集通过空格分开,加入到eval_datasets中,比如eva
model_name=llama_7b benchmark_type=eval bash -x opencompass.sh 这一步可以在客户端显示运行过程,通过run.py运行。如果同时运行多个数据集,需要将不同数据集通过空格分开,加入到eval_datasets中,比如eva
resnet │ ├── model 必选:固定子目录名称,用于放置模型相关文件 │ │ ├──<<自定义Python包>> 可选:用户自有的Python包,在模型推理代码中可以直接引用 │ │ ├──mnist_mlp.pt 必选,pytorch模型保存文件,保存为