搜索_华为云

设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
Lite Server资源配置流程 - AI开发平台ModelArts

Lite Server资源配置流程在开通Lite Server资源后，需要完成相关配置才能使用，配置流程如下图所示。图1 Lite Server资源配置流程图表1 Server资源配置流程配置顺序配置任务场景说明 1 配置Lite Server网络 Server资源开通后

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
Lite Cluster资源管理介绍 - AI开发平台ModelArts

扩缩容Lite Cluster资源池：当Cluster资源池创建完成，使用一段时间后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts提供了扩缩容功能，用户可以根据自己的需求动态调整。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources are available for the selected specification.）

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足问题现象输入输出目录不存在，报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时，报如下错误 "error_code

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linux

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？当模型配置文件中定义了具体的端口号，例如：8443，创建模型没有配置端口，或者配置了其他端口号，均会导致服务部署失败。您需要把模型中的端口号配置为8443，才能保证服务部署成功。修改默认端口号，具体操作如下：登录

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？可以从如下几方面考虑：请选择较小的基础镜像创建Notebook实例，这样在实例中可操作的空间才会大，可自由安装的包才能更多，一般建议原始的启动Notebook的基础镜像在SWR侧查看大小不要超过6G。镜像保存主要保存在/home

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

图2 上传至model目录创建模型，源模型来源选择“从对象存储服务（OBS）中选择”，元模型选择至model目录，AI引擎选择Custom，引擎包选择步骤3构建的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
管理Lite Cluster节点池 - AI开发平台ModelArts

管理Lite Cluster节点池为帮助您更好地管理Kubernetes集群内的节点，ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点，能通过节点池批量配置一组节点。在资源池详情页，单击“节点池管理”页签，您可以创建、更新和删除节点池。图1 节点池管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

资源池驱动升级操作登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”，在“弹性集群”页面，选择“Lite资源池”页签，查看资源池列表。在资源池列表中，选择需要进行驱动升级的资源池“ > 驱动升级”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
使用Windows下生成的文本文件时报错找不到路径？ - AI开发平台ModelArts

使用Windows下生成的文本文件时报错找不到路径？问题现象当在Notebook中使用Windows下生成的文本文件时，文本内容无法正确读取，可能报错找不到路径。原因分析 Notebook是Linux环境，和Windows环境下的换行格式不同，Windows下是CRLF，而Linux

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

h934.eulerosv2r9.x86_64 下安装的nvidia-driver-515，由于执行了yum update并reboot服务器，发现再次执行nvidia命令时报错： [root@Server-ddff ~]# nvidia-smi NVIDIA-SMI has failed

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

systemctl status nvidia-fabricmanager 发现nvidia-fabricmanager的服务为failed状态，尝试重新启动nvidia-fabricmanager失败，且提示以下信息： nvidia-fabricmanager.service failed

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts数据集中添加图片对图片大小有限制吗？ - AI开发平台ModelArts

在ModelArts数据集中添加图片对图片大小有限制吗？在数据管理功能中，针对“物体检测”或“图像分类”的数据集，在数据集中上传更多的图片时，是有限制的。要求单张图片大小不超过8MB，且只支持JPG、JPEG、PNG和BMP四种格式的图片。请注意，针对自动学习功能中的添加图片，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
安装配置Grafana - AI开发平台ModelArts

安装配置Grafana 在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题：使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
制作自定义镜像用于创建Notebook - AI开发平台ModelArts

制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法在ECS上构建自定义镜像并在Notebook中使用在Notebook中通过Dockerfile从0制作自定义镜像在Notebook中通过镜像保存功能制作自定义镜像父主题：制作自定义镜像用于ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
管理在线服务生命周期 - AI开发平台ModelArts

管理在线服务生命周期启动服务您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作，“部署中”状态的服务无法启动。启动服务，当服务处于“运行中”状态后，ModelArts将开始计费。您可以通过如下方式启动服务：登录ModelArts管理控制台，在左侧菜单栏中选择“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
同步Lite Server服务器状态 - AI开发平台ModelArts

在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。在弹性节点Server列表中，单击的“同步”，在弹出的确认对话框中，确认信息无误，然后单击“确定”，完成同步操作。图1 同步状态父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理

总条数： 2637

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置在线服务故障自动重启 - AI开发平台ModelArts

Lite Server资源配置流程 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

使用Windows下生成的文本文件时报错找不到路径？ - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

在ModelArts数据集中添加图片对图片大小有限制吗？ - AI开发平台ModelArts

安装配置Grafana - AI开发平台ModelArts

制作自定义镜像用于创建Notebook - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线