检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Instance”,启动并连接Notebook实例。 Notebook实例状态处于“运行中”或“停止”状态都可以,如果Notebook实例是停止状态,连接Notebook时,VS Code插件会先启动实例再去连接。 图8 连接Notebook实例 或者单击实例名称,在VS Cod
使用Notebook进行代码调试 背景信息 Notebook使用涉及到计费,具体收费项如下: 处于“运行中”状态的Notebook,会消耗资源,产生费用。根据您选择的资源不同,收费标准不同,价格详情请参见产品价格详情。当您不需要使用Notebook时,建议停止Notebook,避免产生不必要的费用。
在JupyterLab使用Git克隆代码仓 在JupyterLab中使用Git插件可以克隆GitHub开源代码仓库,快速查看及编辑内容,并提交修改后的内容。 前提条件 Notebook处于运行中状态。 打开JupyterLab的git插件 在Notebook列表中,选择一个实例,
/v2/{project_id}/workforces/worker-tasks 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer
计费样例 计费场景一 某用户于2023/03/18 15:30:00使用一个按需计费的公共资源池进行训练,规格配置如下: 规格:CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,于2023/03/20 10:30:00停
ame/obs_file.txt', '/home/ma-user/work/obs_file.txt') 如果下载到Notebook中的是zip文件,在Terminal中执行下列命令,解压压缩包。 unzip xxx.zip #在xxx.zip压缩包所在路径直接解压 代码执行
任务创建完成后,您可以在“我创建的”页签下看到新建的任务。 登录ModelArts-Console 在ModelArts中,一般用户使用数据标注功能,直接是在“数据标注”模块操作,此模块包含数据标注、数据导入导出、智能标注、团队标注和管理等。团队标注任务创建成功后,团队成员登录ModelArts-Console查看相关任务。
PCC算子效果 参数说明 表1 数据清洗-PCC算子参数说明 参数名 是否必选 默认值 参数说明 prototype_sample_path 是 None 数据清洗正样例目录。目录应存放正样例图片文件,算法将这些图片为正样例,对输入中的数据进行过滤,即保留与“prototype_sa
examples/deepspeed/ds_z3_config.json 可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库,用于加速深度学习训练。通过使用DeepSpeed,可以实现如混合精度训练、ZeRO内存优化等高级特性,以提高训练效率和性能 stage
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
创建图像分类数据集并进行标注任务 本节通过调用一系列API,以创建图像分类数据集并进行标注任务为例介绍ModelArts API的使用流程。 概述 创建数据集并进行标注的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调用
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 表2 支持的模型列表
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 表2 支持的模型类型和权重获取地址
果开启 MA_TRAIN_AUTO_RESUME=1, 则用户指定的权重加载路径${USER_CONVERTED_CKPT_PATH}不能是训练过程的权重保存路径。 步骤三 启动训练脚本 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务如产生产生mc2融合算子错误,可参考mc2融合算子报错
swr_location. 请删除模型配置文件config.json中的swr_location字段后重试。 异常 自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。
["trainjob"]}]) print(job_list) 参数说明 表1 get_job_list请求参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法请参考Session鉴权。 offset 否 Integer 查询作业的偏移量,最小为0。例如设置为1,则表示从第二条开始查。
1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。
其中,加粗的斜体字段需要根据实际值填写: ma_endpoint为ModelArts的终端节点。 project_id为用户的项目ID。 “X-auth-Token”的值是上一步获取到的Token值。 返回状态码为“200”,响应Body如下所示: { "current": 0, "data": [ {
1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。
1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。