搜索_华为云

在Windows上安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 适用场景本章节适用于在Windows操作系统的PC中安装配置Grafana。操作步骤下载Grafana安装包。进入下载链接，单击Download the installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
在Linux上安装配置Grafana - AI开发平台ModelArts

在Linux上安装配置Grafana 适用场景本章节适用于在Linux操作系统的PC中安装配置Grafana。前提条件一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
在Notebook上安装配置Grafana - AI开发平台ModelArts

在Notebook上安装配置Grafana 适用场景本章节适用于在ModelArts Standard的Notebook中安装配置Grafana。前提条件已创建CPU或GPU类型的Notebook实例，并处于运行中。打开Terminal。操作步骤在Terminal中依

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
监控Lite Server资源 - AI开发平台ModelArts

监控Lite Server资源使用CES监控Lite Server资源使用DCGM监控Lite Server资源父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败问题现象训练作业的“状态”为“运行失败”。原因分析训练作业的监控内存指标持续升高，导致最后训练作业失败。处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
Lite Cluster资源管理介绍 - AI开发平台ModelArts

ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。监控Lite Cluster资源：ModelArts支持使用AOM和Prometheus对资源进行监控，方便您了解当前的资源使用情况。释放Lite Cluster资源：针对不再使用的Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在左侧导航栏，选择“云服务监控 > ModelArts”。查看监控图表。查看在线服务监控图表：单击目标在线服务“操作”列的“查看监控指标”。查看模型负载监控图标：单击目标在线服务左侧的，在下拉列表中选择模型负载“操作”列的“查看监控指标”。在监控区域，您可以通过选择时长，查看对应时间的监控数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在推理生产环境中部署推理服务 - AI开发平台ModelArts

_vllm.sh及SSL证书。此处以chatglm3-6b为例。 ascend_vllm代码包在Step9 构建推理代码已生成。模型权重文件获取地址请参见表1。推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
管理Lite Cluster资源池 - AI开发平台ModelArts

在资源池详情页面，单击“配置管理”，在配置管理页面，可以修改设置监控的命名空间、修改集群配置，配置镜像预热信息。单击监控的图标，可以开启或关闭监控信息，并设置监控的命名空间。监控使用请参考使用Prometheus查看Lite Cluster监控指标。单击集群配置的图标，可以设置绑核、Drop

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem，需自行生成。生成方式请参见•通过openssl创建SSLpem证书。图1 准备模型文件和权重文件创建推理脚本文件run_vllm.sh run_vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem，需自行生成。生成方式请参见•通过openssl创建SSLpem证书。图1 准备模型文件和权重文件创建推理脚本文件run_vllm.sh run_vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
认证证书 - AI开发平台ModelArts
认证证书 - AI开发平台ModelArts

认证证书合规证书华为云服务及平台通过了多项国内外权威机构（ISO/SOC/PCI等）的安全合规认证，用户可自行申请下载合规资质证书。图1 合规证书下载资源中心华为云还提供以下资源来帮助用户满足合规性要求，具体请查看资源中心。图2 资源中心销售许可证&软件著作权证书另

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在推理生产环境中部署推理服务 - AI开发平台ModelArts

中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见支持的模型列表和权重文件。如果需要部署量化模型，请参考推理模型量化在N

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见支持的模型列表和权重文件。如果需要部署量化模型，请参考推理模型量化在N

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见表1。若需要部署量化模型，请参考推理模型量化在Notebook中进行权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见支持的模型列表和权重文件。若需要部署量化模型，请参考推理模型量化在No

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
自动续费 - AI开发平台ModelArts
自动续费 - AI开发平台ModelArts

00尝试一次，直至专属资源池到期或者续费成功。开通自动续费后，还可以手动续费该专属资源池。手动续费后，自动续费仍然有效，在新的到期时间前的第7天开始扣款。自动续费的到期前7日自动扣款属于系统默认配置，您也可以根据需要修改此扣款日，如到期前6日、到期前5日等。更多关于自动续费的规则介绍请参见自动续费规则说明。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
资源池统计 - AI开发平台ModelArts

描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例查询资源池监控信息。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例状态码：200 OK。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
msprobe精度分析工具使用指导 - AI开发平台ModelArts

Tools工具链下精度调试部分的工具包，其通过采集和对比标杆（GPU/CPU）环境和昇腾环境上运行训练时的差异点来判断问题所在，主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe工具介绍。一般场景的训练模型都是包括随机种子、数据集Shuffle、网络结构Dropout等操作的，

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

到期后，资源状态变为“已过期”。到期未续费时，专属资源池首先会进入宽限期，宽限期到期后仍未续费，资源状态变为“已冻结”。超过宽限期仍未续费将进入保留期，如果保留期内仍未续费，资源将被自动删除。华为云根据客户等级定义了不同客户的宽限期和保留期时长。在专属资源池到期前均可开通自动续费，到期前7日凌晨

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费

总条数： 374

上一页
1
2
3
4
5
...
19
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Windows上安装配置Grafana - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

在Notebook上安装配置Grafana - AI开发平台ModelArts

监控Lite Server资源 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

认证证书 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

自动续费 - AI开发平台ModelArts

资源池统计 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线