搜索_华为云

查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
查看模型评估结果 - AI开发平台ModelArts

您的模型进行评估，并且给出调优诊断和建议。针对使用预置算法创建训练作业，无需任何配置，即可查看此评估结果（由于每个模型情况不同，系统将自动根据您的模型指标情况，给出一些调优建议，请仔细阅读界面中的建议和指导，对您的模型进行进一步的调优）。针对用户自己编写训练脚本或自定义镜像方

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
数据集配额不正确 - AI开发平台ModelArts

当前每个账号支持的数据集配额为100，新版数据集页面显示所有已创建的数据集，但是旧版数据集页面不显示新版数据集。所以旧版页面存在显示不完整的情况，可以前往新版数据集页面查看。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
训练精度测试 - AI开发平台ModelArts

训练精度测试流程图如下图所示：图1 训练精度测试流程图执行训练任务进入test-benchmark目录执行训练命令，可以多次执行，按自己实际情况。 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> <cfgs_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
训练性能测试 - AI开发平台ModelArts

训练性能测试流程执行训练任务进入test-benchmark目录执行训练命令，可以多次执行，卡数及其它配置参考NPU卡数取值表按自己实际情况决定。单机<可选>： # 默认8卡 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，也支持用户自定义一些指标项上报到AOM查看。此外，还支持在ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）父主题：主流开源大模型基于DevServer适配LlamaFactory

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）父主题：主流开源大模型基于DevServer适配LlamaFactory

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
已购买的套餐包为什么不能使用？ - AI开发平台ModelArts

已购买的套餐包为什么不能使用？已购买的套餐包不能使用包含以下几种情况：购买套餐包的区域与使用区域不同。例如您在“华北-北京四”区域购买的套餐包，就只能在此区域使用。查看已购买套餐包区域可参见如何查看在哪个区域购买的套餐包？。购买的套餐包不支持在此场景中使用。例如，您购买的套

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
服务启动失败 - AI开发平台ModelArts

服务启动失败问题现象当服务事件中出现如下事件时，表示容器启动失败。图1 服务启动失败原因分析服务启动失败的原因比较多样，可能有如下几种情况： AI应用本身问题，无法启动镜像中配置的端口错误健康检查配置有问题模型推理代码customize_service.py编写有问题镜像拉取失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？在ModelArts管理控制台，单击左侧菜单栏的“总览”，您可以在“总览>生产概况”区域查看正在收费的作业。根据实际情况进入管理页面，停止并删除实例。例如，Notebook正在计费，请前往“开发空间 > Notebook”页面，将状态为“运行中”的Notebook实例停止并删除。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？在ModelArts管理控制台，单击左侧菜单栏的“总览”，您可以在“总览”区域查看正在收费的作业。根据实际情况进入管理页面，停止实例。例如，Notebook正在计费，请前往“开发空间 > Notebook”页面，将状态为“运行中”的Notebook实例停止。

帮助中心 > AI开发平台ModelArts > 常见问题 > 计费相关
训练作业性能降低 - AI开发平台ModelArts

请您对作业代码进行排查分析，确认是否对训练代码和参数进行过修改。检查资源分配情况（cpu/mem/gpu/snt9/infiniband）是否符合预期。通过CloudShell登录到Linux工作页面，检查GPU工作情况：通过输入“nvidia-smi”命令，查看GPU工作是否异常。通过输入“nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
Notebook使用场景 - AI开发平台ModelArts

Notebook使用场景 ModelArts提供灵活开放的开发环境，您可以根据实际情况选择。 ModelArts提供了CodeLab功能，一方面，一键进入开发环境，同时预置了免费的算力规格，可直接免费体验Notebook功能；另一方面，针对AI Gallery社区发布的Notebook样例（

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试

总条数： 676

上一页
1
2
3
4
5
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

数据集配额不正确 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

已购买的套餐包为什么不能使用？ - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

Notebook使用场景 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线