搜索_华为云

查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

gpu_uuid 节点上GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name infiniband或RoCE网络网卡的设备名称。 port IB网卡的端口号。 physical_state IB网卡每个端口的状态。 firmware_version

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
查看ModelArts相关审计日志 - AI开发平台ModelArts

在需要查看的事件左侧，单击展开该事件的详细信息。单击需要查看的事件“操作”列的“查看事件”，可以在弹窗中查看该操作事件结构的详细信息。更多关于云审计服务事件结构的信息，请参见《云审计服务用户指南》。父主题：使用CTS审计ModelArts服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用CTS审计ModelArts服务
查看训练作业日志 - AI开发平台ModelArts

图4 查看不同计算节日志当日志文件过大时，系统日志窗口仅加载最新的部分日志，并在日志窗口上方提供全量日志访问链接。打开该链接可在新页面查看全部日志。图5 查看全量日志如果全部日志超过500M，可能会引起浏览页面卡顿，建议您直接下载日志查看。预览链接在生成后的一小时内，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看授权列表 - AI开发平台ModelArts

查看授权列表功能介绍查看授权列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/authorizations 表1 路径参数

 帮助中心 > AI开发平台ModelArts > API参考 > 授权管理
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

在ModelArts控制台查看监控指标在总览页查看ModelArts监控指标在ModelArts控制台的总览页，支持查看生产概况（即总体作业运行数量）、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业，跳转到对应界面查看更多详情。图1 总览页查看监控信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
查看模型评估结果 - AI开发平台ModelArts

由于最终JSON体中需要填写的是图片文件的真实路径，也就是OBS对应的路径，所以在复制到本地做完分析和评估操作后，需要将原来的本地数据集路径映射到OBS路径，然后将新的list送入analysis接口。如果使用的是OBS路径作为输入的data_url，则只需要替换本地路径的字符串即可。 1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看训练作业事件 - AI开发平台ModelArts

查看训练作业事件训练作业的（从用户可看见训练作业开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应训练作业的详情页面进行查看。方便用户更清楚的了解训练作业运行过程，遇到任务异常时，更加准确的排查定位问题。当前支持的作业事件如下所示：训练作业创建成功训练作业创建失败报错：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

如何查看ModelArts训练作业资源占用情况？在ModelArts管理控制台，选择“模型训练>训练作业”，进入训练作业列表页面。在训练作业列表中，单击目标作业名称，查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU：CPU使用率（cpuUsage）百分比（Percent）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
服务启动失败 - AI开发平台ModelArts

模型界面上配置的端口。确认两处端口保持一致。模型创建界面如果不填端口信息，则ModelArts会默认监听8080端口，即镜像代码中启用的端口必须是8080。图2 自定义镜像中的代码开放的端口图3 创建模型界面上配置的端口健康检查配置有问题镜像如果配置了健康检查，服务启动失败，从以下两个方面进行排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查看Lite Server服务器详情 - AI开发平台ModelArts

查看Lite Server服务器详情在您创建了Lite Server服务器后，可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server服务器的详细信息，包括名称/ID、规格、镜像等信息。在弹性节点Server的节点列表页中，可以查看

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster资源池详情页的配置管理页面中先打开“监控”开关。开通此功能后，兼容Prometheus指标格式的第三方组件可通过API http://<节点IP>:<端口号>/metrics获取ModelArts采集到的指标数据。开通前需要确认使用的端口号，端口号可选取10120~1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

节点上GPU的型号。 device_name infiniband或RoCE网络网卡的设备名称。 port IB网卡的端口号。 physical_state IB网卡每个端口的状态。 firmware_version IB网卡的固件版本。 filesystem NFS挂载的文件系统。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
查看训练作业详情 - AI开发平台ModelArts

在训练作业详情页的左侧，可以查看此次训练作业的基本信息和算法配置的相关信息。训练作业基本信息表1 训练作业基本信息参数说明 “作业ID” 训练作业唯一标识。 “作业状态” 训练作业状态。说明：如果昇腾以及MindSpore框架的训练作业运行失败，您可以在作业状态的提示信息中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看Standard专属资源池详情 - AI开发平台ModelArts

以查看该网络中可用的IP数量。在扩展信息中可以查看监控、作业、节点、规格、事件、标签，详细介绍见下文。查看资源池中的作业在资源池详情页，切换到“作业”页签。您可以查看该资源池中运行的所有作业，如果当前有作业正在排队，可以查看作业在资源池排队的位置。当前仅支持查看训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled 问题现象创建Notebook失败，查看事件显示JupyterProcessKilled。图1 查看事件原因分析出现此故障是因为Jupyter进程被清理掉了，一般情况Notebook会自动重启的，如果没有自动

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
在MaaS应用实践中心查看应用解决方案 - AI开发平台ModelArts

在MaaS应用实践中心查看应用解决方案 ModelArts Studio大模型即服务平台提供了MaaS应用实践中心，为具体的应用场景提供一整套解决方案。应用中心介绍 “MaaS应用实践中心”提供基于行业客户应用场景的AI解决方案。MaaS提供的模型服务和华为云各AI应用层构建工

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查看训练作业资源占用情况 - AI开发平台ModelArts

如何判断训练作业资源利用率高低在模型训练的训练作业列表页可以查看作业资源利用率情况。当作业worker-0实例的GPU/NPU的平均利用率低于50%时，在训练作业列表中会进行告警提示。图2 作业列表显示作业资源利用率情况此处的作业资源利用率只涉及GPU和NPU资源。作业worker-0实例的GPU/NP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

总条数： 1361

上一页
1
2
3
4
5
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

查看ModelArts相关审计日志 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

查看授权列表 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

查看训练作业事件 - AI开发平台ModelArts

如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

在MaaS应用实践中心查看应用解决方案 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线