搜索_华为云

训练作业卡死检测 - AI开发平台ModelArts

所有进程IO都没有变化，则进入资源利用率检测阶段。资源利用率：在作业进程IO没有变化的情况下，采集一定时间段内的GPU利用率或NPU利用率，并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化，则判定作业卡死。系统预置了卡死检测的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型配置文件编写说明 - AI开发平台ModelArts

目前支持的运行时环境列表请参见推理支持的AI引擎。需要注意的是，如果您的模型需指定CPU或GPU上运行时，请根据runtime的后缀信息选择，当runtime中未包含cpu或gpu信息时，请仔细阅读“推理支持的AI引擎”中每个runtime的说明信息。 metrics 否 object数据结构

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
非分离部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size=1 \ --block-size=128 \ --host=${docker_ip} \ --port=8080 \ --gpu-memory-utilization=0.9 \ --trust-remote-code （2）llava多模态 export VLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
创建训练作业 - AI开发平台ModelArts

Session() #训练脚本里接收的参数，请根据实际情况填写 parameters = [{"name": "mod", "value":"gpu"}, {"name": "epoc_num", "value":2}] estimator = Estim

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
在Workflow中更新已部署的服务 - AI开发平台ModelArts

default="0.002", description="训练的学习率策略(10:0.001,20:0.0001代表0-10个epoch学习率0.001，10-20epoch学习率0.0001),如果不指定epoch, 会根据验证精度情况自动调整学习率，并当精度没有明显提升时，训练停止")),

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
查询训练作业指定任务的运行指标 - AI开发平台ModelArts

描述 metric String 运行指标，可选值如下： cpuUsage：CPU使用率 memUsage：物理内存使用率 gpuUtil：GPU使用率 gpuMemUsage：显存使用率 npuUtil：NPU使用率 npuMemUsage：NPU显存使用率 value Array

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
获取自动化搜索作业yaml模板的内容 - AI开发平台ModelArts

"Bayes.yaml", "content" : "general:\n instance_per_trial: 1\n gpu_per_instance: 1\n cpu_per_instance: 1\n\nsearch_space:\n - params:

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

计算得出的模型参数/权重更新的次数。在调优过程中，每一个Iterations会消耗32条训练数据。参见表3 学习率/learning_rate 设置每个迭代步数（iteration）模型参数/权重更新的速率。学习率设置得过高会导致模型难以收敛，过低则会导致模型收敛速度过慢。参见表3 Checkpoint保存个数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
执行训练任务（推荐） - AI开发平台ModelArts

context-parallel-size 。（此参数目前仅适用于Llama3系列模型长序列训练） lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
编排Workflow - AI开发平台ModelArts

default="0.002", description="训练的学习率策略(10:0.001,20:0.0001代表0-10个epoch学习率0.001，10-20epoch学习率0.0001),如果不指定epoch, 会根据验证精度情况自动调整学习率，并当精度没有明显提升时，训练停止")),

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
部署推理服务 - AI开发平台ModelArts

PFA算子是否使用高精度模式；默认值为0表示不开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
附录：训练常见问题 - AI开发平台ModelArts

expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-Ze

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
使用AWQ量化 - AI开发平台ModelArts

s.vllm.ai/en/latest/quantization/auto_awq.html。 Step2 权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

ocs.vllm.ai/en/latest/quantization/auto_awq.html。步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

参数是否必选参数类型描述 key 否 String 资源约束，可选键值如： flavor_type（资源类型），对应值可选择CPU、GPU或Ascend； device_distributed_mode（是否支持多卡训练），对应值可选择multiple（支持）、singular（不支持）；

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询作业引擎规格 - AI开发平台ModelArts

Learn 9：XGBoost-Sklearn 10：Pytorch 13：Ascend-Powerd-Engine 17: MindSpore-GPU engine_id Long 训练作业的引擎ID。 engine_name String 训练作业的引擎名称。 engine_version

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
使用AWQ量化 - AI开发平台ModelArts

ocs.vllm.ai/en/latest/quantization/auto_awq.html。步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

ocs.vllm.ai/en/latest/quantization/auto_awq.html。步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
执行训练任务【新】 - AI开发平台ModelArts

768长度，则推荐增加此值（≥ 2）。（此参数目前仅适用于Llama3系列模型长序列训练） lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 seq-length 4096 要处理的最大序列长度。 convert_mg2hf_at_last 1 M

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
发布Notebook - AI开发平台ModelArts

&”。勾选“我已阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》”。选择运行环境：CPU、GPU或ASCEND。图2 发布AI Gallery Notebook 界面提示成功创建分享后，单击“”跳转至AI Gallery，进入Notebook代码样例的详情页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享

总条数： 977

上一页
1
...
31
32
33
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业卡死检测 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

查询训练作业指定任务的运行指标 - AI开发平台ModelArts

获取自动化搜索作业yaml模板的内容 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

查询作业引擎规格 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

发布Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线