检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
&& \ chmod 770 /root && \ usermod -a -G root ma-user 其他现象,可以在已有的训练故障案例查找。 建议与总结 用户使用自定义镜像训练作业时,建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。 父主题: 训练作业运行失败
上传数据和算法至SFS(首次使用时需要) 前提条件 ECS服务器已挂载SFS,请参考ECS服务器挂载SFS Turbo存储。 在ECS中已经创建ma-user和ma-group用户,请参考在ECS中创建ma-user和ma-group。 已经安装obsutil,请参考下载和安装obsutil。
图3 告警条件设置 设置告警通知,单击“立即创建”。 “告警方式”:选择“直接告警” “行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则。 “告警恢复通知”:开启开关 图4 设置告警通知
包含该系列AWQ量化模型。由于部分算子暂未适配,其他场景(如Multi-lora)暂未支持。 CANN-GRAPH参数设置 相关参数如下表所示: 服务启动方式 配置项 配置说明 offline enforce_eager 设置该参数为True将关闭CANNGraph图模式,小模型如Qwen2-1
DDP on Ascend加速卡训练。 前提条件 需要有Ascend加速卡资源池。 创建训练作业 本案例创建训练作业时,需要配置如下参数。 表1 创建训练作业的配置说明 参数名称 说明 “创建方式” 选择“自定义算法”。 “启动方式” 选择“自定义”。 “镜像” 选择用于训练的自定义镜像。
两个且无数据缺失,除标签列外数据集中至少还应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。训练数据的csv文件不能包含表头,否则会导致训练失败。当前由于特征筛选算法限制,标签列建议放在数据集最后一列,否则可能导致训练失败。 由于ModelArts会自动对数据进