检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
失败,避免后续无意义的运行时长。 解决方案 专属资源池的Ascend驱动版本需与训练基础镜像中的Cann软件版本版本匹配。 ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池(NEW)的详情页面查看到。ModelArts上支持的Cann软件版本可以在
精度比对功能主要针对两类场景的问题: 同一模型,从CPU或GPU移植到NPU中存在精度下降问题,对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值,进行问题定位。 同一模型,进行迭代(模型、框架版本升级或设备硬件升级)时存在的精度下降问题,对比相同模型在迭代前后版本的API计算数值,进行问题定位。
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
${USER_CONVERTED_CKPT_PATH}训练过程的权重保存路径,加载路径一致。 故障快恢依赖训练过程的权重保存路径。所以如果开启 MA_TRAIN_AUTO_RESUME=1, 则用户指定的权重加载路径${USER_CONVERTED_CKPT_PATH}不能是训练过程的权重保存路径。 步骤三 启动训练脚本
云服务”模式,客户端请求应答可接受的最长时延为2秒。 - 模型参数规模,是否涉及分布式推理 10B/100B,单机多卡推理。 - 能否提供实际模型、网络验证的代码和数据等信息 提供实际模型、网络验证的代码和数据。 提供与业务类型类似的开源模型,例如GPT3 10B/13B。 提供测试模型以及对应的Demo代码路径(开源或共享)。
根据界面提示填写相关信息,然后单击“立即注册”。 “镜像源”选择构建好的镜像。可直接复制完整的SWR地址,或单击选择SWR构建好的镜像进行注册。 图2 选择镜像源 “架构”和“类型”:根据自定义镜像的实际框架选择。 注册后的镜像会显示在ModelArts“镜像管理”页面。 父主题: 制作自定义镜像用于创建Notebook
utShape,用于模型的格式的编译与转换,可以在netron官网进行查看,或者对于模型结构中的输入进行shape的打印,并明确输入的batch。 一般来说,推理时指定的inputShape和用户的业务及推理场景紧密相关,可以通过原始模型推理脚本或者网络模型进行判断。需要把Not
用户密码,GaussDB(DWS)数据需提供此参数。 vpc_id 否 String MRS集群所在的vpc的ID。 表6 LabelFormat 参数 是否必选 参数类型 描述 label_type 否 String 文本分类的标签类型。可选值如下: 0:标签和文本分离,以固定后
云服务”模式,客户端请求应答可接受的最长时延为2秒。 - 模型参数规模,是否涉及分布式推理 10B/100B,单机多卡推理。 - 能否提供实际模型、网络验证的代码和数据等信息 提供实际模型、网络验证的代码和数据。 提供与业务类型类似的开源模型,例如GPT3 10B/13B。 提供测试模型以及对应的Demo代码路径(开源或共享)。
镜像可见度,默认值PRIVATE。枚举值: PRIVATE:私有镜像。 PUBLIC: 所有用户可以根据ImageId来进行只读使用。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。
docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
在区域。 比对您创建的OBS桶所在区域与ModelArts所在区域是否一致。务必保证OBS桶与ModelArts所在区域一致。 检查您的账号是否有该OBS桶的访问权限 如果在使用Notebook时,需要访问其他账号的OBS桶,请查看您的账号是否有该OBS桶的访问权限。如没有权限,
查看Notebook实例事件 在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也
方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,如果显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,如果显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。
训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b
训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的LoRA微调为例,执行脚本为0_pl_lora_70b
训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b
训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置 以Llama2-70b和Llama2-13b的LoRA微调为例,执行脚本为0_pl_lora_70b
化,以提升模型的运行效率。 自动高性能算子生成工具AKG AKG(Auto Kernel Generator)对深度神经网络中的算子进行优化,并提供特定模式下的算子自动融合功能。提升在昇腾硬件后端上运行网络的性能。 AKG由三个基本的优化模块组成:规范化、自动调度和后端优化。 规范化:
训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的LoRA微调为例,执行脚本为0_pl_lora_70b