搜索_华为云

模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
创建ModelArts数据选择任务 - AI开发平台ModelArts

您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型“数据选择”，填写相应算子的设置参数，算子的详细参数参见数据去重算子（SimDeduplication算子）和数据去冗余算子（RRD算子）。图1 设置场景类别和数据处理类型设置输入与输出。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
创建ModelArts数据清洗任务 - AI开发平台ModelArts

您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型选择“数据校验”，填写相应算子的设置参数，算子的详细参数参见数据清洗算子（PCC算子）。图2 设置场景类别和数据处理类型设置输入与输出。需根据实际数据情况选择“数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
训练作业容错检查 - AI开发平台ModelArts

ckpt的代码逻辑，使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。开启容错检查用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Step1 创建用户组并加入用户 - AI开发平台ModelArts

请根据界面提示，填写必选参数，然后单击“下一步”。在“加入用户组”步骤中，选择“用户组02”，然后单击“创建用户”。系统将逐步创建好前面设置的2个用户。父主题：配置ModelArts基本使用权限

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决？ - AI开发平台ModelArts

“C:\Users”目录下的文件名必须和Windows登录用户名完全一致。右键单击.ssh文件夹，选择“属性”。然后单击“安全”页签。单击“高级”，在弹出的高级安全设置界面单击“禁用继承”，在弹出的“阻止继承”窗口单击“从此对象中删除所有继承的权限”。此时所有用户都将被删除。添加所有者：在同一窗口中，

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练的数据集预处理说明 - AI开发平台ModelArts

--seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。微调数据集预处理参数说明微

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

服务的权限，并结合实际需求进行选择，ModelArts支持的系统权限，请参见表1。表1 服务授权列表待授权的服务授权说明 IAM权限设置是否必选 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
MoXing常用操作的样例代码 - AI开发平台ModelArts

is_directory：是否为目录。例如查询一个OBS文件“obs://bucket_name/obs_file.txt”，此文件地址也可以替换成一个文件夹地址。 1 2 3 4 5 import moxing as mox stat = mox.file.stat('obs://bucket_name/obs_file

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
附录：大模型推理常见问题 - AI开发平台ModelArts

zer/chatglm3-6b/config.json 问题3：使用离线推理时，性能较差或精度异常。解决方法：将block_size大小设置为128。 from vllm import LLM, SamplingParams llm = LLM(model="facebook/opt-125m"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
训练的数据集预处理说明 - AI开发平台ModelArts

--seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

--seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。微调数据集预处理参数说明微

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

--seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

--seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。微调数据集预处理参数说明微

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
使用llm-compressor工具量化 - AI开发平台ModelArts

torch_dtype=torch.bfloat16, trust_remote_code=True, ) 3）为减少量化时间，建议将以下参数设置为512； NUM_CALIBRATION_SAMPLES = 512 执行权重量化： python deepseek_moe_w8a8_int8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
yaml配置文件参数配置说明 - AI开发平台ModelArts

Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
创建导入任务 - AI开发平台ModelArts

String 表格数据集，HDFS路径。例如/datasets/demo。 ip 否 String 用户GaussDB(DWS)集群的IP地址。 port 否 String 用户GaussDB(DWS)集群的端口。 queue_name 否 String 表格数据集，DLI队列名。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询训练作业详情 - AI开发平台ModelArts

String 训练作业选择的引擎版本名称。如果填入engine_id，则无需填写。 image_url String 训练作业选择的自定义镜像地址。表25 TaskResponse 参数参数类型描述 role String 异构训练作业的任务角色。枚举值： learner（支持GPU\CPU规格）

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
终止训练作业 - AI开发平台ModelArts

String 训练作业选择的引擎版本名称。如果填入engine_id，则无需填写。 image_url String 训练作业选择的自定义镜像地址。表25 TaskResponse 参数参数类型描述 role String 异构训练作业的任务角色。枚举值： learner（支持GPU\CPU规格）

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

dump图进行具体分析。配置方式参考如下：打开DEBUG日志。设置MindSpore日志环境变量。 export GLOG_v=0 # 0-DEBUG、1-INFO、2-WARNING、3-ERROR 设置CANN日志环境变量。 # 0：表示DEBUG。1：表示INFO。2

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题

总条数： 1304

上一页
1
...
48
49
50
...
66
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型训练高可靠性 - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

创建ModelArts数据清洗任务 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

Step1 创建用户组并加入用户 - AI开发平台ModelArts

报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决？ - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

MoXing常用操作的样例代码 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

创建导入任务 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线