搜索_华为云

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要）前提条件 ECS服务器已挂载SFS，请参考ECS服务器挂载SFS Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
配置Lite Cluster网络 - AI开发平台ModelArts

本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

xx为Grafana的所在宿主机的IP地址图1 Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号，单击Save&Test：图2 IP地址和端口号至此，指标监控方案安装完成。指标监控效果展示如下：图3 指标监控效果这里使用的是Grafana最基本的功能

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

待几分钟。详细操作请参考保存Notebook镜像环境。图7 保存镜像查看所保存的镜像保存后的镜像可以在ModelArts控制台“镜像管理”页面查看到该镜像详情。单击镜像的名称，进入镜像详情页，可以查看镜像版本/ID，状态，资源类型，镜像大小，SWR地址等。步骤5：使用SDK提交训练作业

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

TensorFlow Serving是一个灵活、高性能的机器学习模型部署系统，提供模型版本管理、服务回滚等能力。通过配置模型路径、模型端口、模型名称等参数，原生TFServing镜像可以快速启动提供服务，并支持gRPC和HTTP Restful API的访问方式。 Trito

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

HTTP方法方法说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源，如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。当资源不存在的

 帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
通过SSH工具远程使用Notebook - AI开发平台ModelArts

获取的地址。例如：dev-modelarts-cnnorth4.huaweicloud.com。 Port：云上Notebook实例的端口，即在Notebook实例详情页获取的端口号。例如：32701。 Connection Type：选择SSH。 Saved Sessions：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。处理方法服务部署失败后，进入服务详情界面，查看服务部署日志，明确服务部署失败原因（用户代码输出需要使用标准输入输出函数，否则输出的内容不会呈现到前端页面日志）。根据日志中提示的报错信息找到对应的代码进行定位。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
服务启动失败 - AI开发平台ModelArts

型界面上配置的端口。确认两处端口保持一致。模型创建界面如果不填端口信息，则ModelArts会默认监听8080端口，即镜像代码中启用的端口必须是8080。图2 自定义镜像中的代码开放的端口图3 创建模型界面上配置的端口健康检查配置有问题镜像如果配置了健康检查，服务启动失败，从以下两个方面进行排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
配置仪表盘查看指标数据 - AI开发平台ModelArts

选择修改，修改后，单击保存即可生效。修改DashBoard查询数据时间范围图7 修改查询数据时间范围单击右上角图标，即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel，都会应用该数据查询时间范围。增加新panel 图8 新增一个panel 单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

x86_x64架构的主机为例，您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像，推荐使用ubuntu18.04的镜像。图1 创建ECS服务器-选择X86架构的公共镜像登录主机后，安装D

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
在模型广场查看模型 - AI开发平台ModelArts

在模型广场查看模型在模型广场页面，ModelArts Studio大模型即服务平台提供了丰富的开源大模型，在模型详情页可以查看模型的详细介绍，根据这些信息选择合适的模型进行训练、推理，接入到企业解决方案中。访问模型广场登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

式的第三方组件可通过API http://<节点IP>:<端口号>/metrics获取ModelArts采集到的指标数据。开通前需要确认使用的端口号，端口号可选取10120~10139范围内的任一端口号，请确认选取的端口号在各个节点上都没有被其他应用占用。 Kubernetes

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

Looping (output port = input port) 计数值自然数 PortXmitWait infiniband_port_transmit_wait_total The number of ticks during which the port had data to

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
查看诊断报告 - AI开发平台ModelArts

查看诊断报告 Advisor分析profiling会输出html和xlsx两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据，如集群计算、通信和下发的耗时，可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序，从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

引擎包：从容器镜像中选择一个镜像。容器调用接口：端口和协议可根据镜像实际使用情况自行填写。其他参数保持默认值。单击“立即创建”，跳转到模型列表页，查看模型状态，当状态变为“正常”，模型创建成功。图1 创建模型单击模型名称，进入模型详情页面，查看模型详情信息。部署服务并查看详情在模型详情页面，单

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

常见问题模型转换失败怎么办？常见的模型转换失败原因可以通过查询转换失败错误码来确认具体导失败的原因。Stable Diffusion新推出的模型在转换中可能会遇到算子不支持的问题，您可以到华为云管理页面上提交工单来寻求帮助。图片大Shape性能劣化严重怎么办？在昇腾设备上，

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导

总条数： 1456

上一页
1
2
3
4
5
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

在模型广场查看模型 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线