搜索_华为云

在Linux上安装配置Grafana - AI开发平台ModelArts

一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本地存储100G），具体操作请参考《购买弹性云服务器》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
查看批量服务详情 - AI开发平台ModelArts

查看批量服务详情当模型部署为批量服务成功后，您可以进入“批量服务”页面，来查看服务详情。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>批量服务”，进入“批量服务”管理页面。单击目标服务名称，进入服务详情页面。您可以查看服务的“名称”、“状态”等信息，详情说明请参见表1。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：微调训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
使用CES监控Lite Server资源 - AI开发平台ModelArts

HBM单比特错误隔离内存页数量 NPU卡HBM单比特错误隔离内存页数量 count instance_id，npu npu_hbm_double_bit_isolated_pages_cnt HBM多比特错误隔离内存页数量 NPU卡HBM多比特错误隔离内存页数量 count instance_id，npu

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
部署服务如何选择计算节点规格？ - AI开发平台ModelArts

部署服务如何选择计算节点规格？部署服务时，用户需要指定节点规格进行服务部署，界面目前显示的节点规格是ModelArts根据用户的AI应用和资源池的节点规格计算得到，用户可以选择ModelArts提供的规格，也可以使用自定义规格（公共资源池不支持）。计算节点规格主要是根据用户A

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

根据文件名下载文件在服务器执行如下命令，将待下载的文件名枚举出来即可从AI Gallery仓库依次下载多个文件到云服务器的缓存目录下。 gallery-cli download {repo_id} {文件名} {文件名} 其中，“repo_id”如何获取，文件名如何获取。如下所示，表示下载文件“config

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
Lite Server资源开通 - AI开发平台ModelArts

资源不足：跳转到BMS页面，查看要购买的规格是否售罄，如果该规格售罄，说明无该规格资源，需要联系客户经理获取到资源后再进行购买。配额不足：查看账户的资源配额是否满足，若该账号下资源配额，包括核心数、RAM等，如果未满足也会导致创建失败，需要申请配额后再进行购买。 BMS机器内部错误：查看BMS界面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

资源。图5 报错信息 ECS、BMS节点创建失败？查看资源池失败报错信息：包含错误码，如：Ecs.0000时，可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。包含错误码，如：BMS.0001时，可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

确认对应的脚本、代码、流程在linux服务器上运行正常。如果在linux服务器上运行就有问题，那么先调通以后再做容器镜像。确认打入镜像的文件是否在正确的位置、是否有正确的权限。训练场景主要查看自研的依赖包是否正常，查看pip list是否包含所需的包，查看容器直接调用的python是否是自己所需要的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
查询作业资源规格 - AI开发平台ModelArts

查询作业资源规格功能介绍查看指定作业类型的资源规格。创建训练作业和预测作业需要指定资源规格。 URI GET /v1/{project_id}/job/resource-specs 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
Notebook实例出现“Server Connection Error”错误 - AI开发平台ModelArts

显存等占满，可在JupyterLab界面下方查看内存使用情况，如图2所示。此时Kernel会自动重启，存储在“/home/ma-user/work”目录下的数据会被保留，其他目录的数据均不会保留。图1 报错信息截图图2 查看内存使用情况父主题： Notebook实例常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

xxx.pem port xxxxx: Connection refused”如何解决？问题现象原因分析网络不通；端口不通。解决方法检查实例是否运行。请前往ModelArts控制台查看实例是否处于运行状态，如果实例已停止，请执行启动操作，如果实例处于其他状态比如“错误”

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？问题现象服务部署、启动、升级和修改时，容器健康检查失败。原因分析容器提供的健康检查接口调用失败。容器健康检查接口调用失败，原因可能有两种：镜像健康检查配置问题模型健康检查配置问题解决方法根据容器日志进行排查，查看健康检查接口失败的具体原因。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
欠费后，ModelArts的资源是否会被删除？ - AI开发平台ModelArts

欠费后，ModelArts的资源是否会被删除？欠费后，ModelArts的资源不会被立即删除。欠费后，您可以在“费用中心”查看欠费详情。为了防止相关资源不会被停止服务或者逾期释放，您需要及时进行还款或充值。查询欠费步骤登录管理控制台。单击页面右上角的“费用”进入“费用中心”页面。

帮助中心 > AI开发平台ModelArts > 常见问题 > 计费相关
欠费后，ModelArts的资源是否会被删除？ - AI开发平台ModelArts

欠费后，ModelArts的资源是否会被删除？欠费后，ModelArts的资源不会被立即删除。欠费后，您可以在“费用中心”查看欠费详情。为了防止相关资源不会被停止服务或者逾期释放，您需要及时进行还款或充值。查询欠费步骤登录管理控制台。单击页面右上角的“费用”进入“费用中心”页面。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ

总条数： 1937

上一页
1
...
4
5
6
...
97
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Linux上安装配置Grafana - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

部署服务如何选择计算节点规格？ - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

Notebook实例出现“Server Connection Error”错误 - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

欠费后，ModelArts的资源是否会被删除？ - AI开发平台ModelArts

欠费后，ModelArts的资源是否会被删除？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线