检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
_6 Step6 监督微调 bash finetune_ds.sh 修改模型权重路径${model_path},保持其余参数一致。脚本参数设置如下: #!/bin/bash GPUS_PER_NODE=8 NNODES=1 NODE_RANK=0 MASTER_ADDR=localhost
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite Server。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"]
文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ##安装obsutil,完成AKSK配置。建议在基础镜像里做好。
请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 action_type 是 String 对训练作业的操作请求。参数值设置为terminate时,表示终止训练作业操作。 响应参数 状态码: 202 表3 响应Body参数 参数 参数类型 描述 kind String
必须修改。加载tokenizer与Hugging Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/w
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ##安装obsutil,完成AKSK配置。建议在基础镜像里做好。
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
在Notebook列表中,对于要保存的Notebook实例,单击右侧“操作”列中的“更多 > 保存镜像”,进入“保存镜像”对话框。 图1 保存镜像 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 在“组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建
在Notebook列表中,对于要保存的Notebook实例,单击右侧“操作”列中的“更多 > 保存镜像”,进入“保存镜像”对话框。 图1 保存镜像 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 在“组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建
在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量。 代码示例 训练作业的启动脚本示例如下。 启动脚本中设置plog生成后存放在“/home/ma-user/modelarts/log/modelarts-job-{id}/worker-{ind
分页列表的起始页,默认为0。 process_parameter 否 String 图像缩略设置,同OBS缩略图设置,详见OBS缩略图设置。如:image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 sample_state 否 String 样本状态。可选样本状态如下:
String 模型来源的类型,当前仅可取值auto,用于区分通过自动学习部署过来的模型(不提供模型下载功能);用户通过训练作业部署的模型不设置此值。默认值为空。 model_type 是 String 模型类型,取值为:TensorFlow/MXNet/Spark_MLlib/S