搜索_华为云

设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
服务部署 - AI开发平台ModelArts
服务部署 - AI开发平台ModelArts

服务部署自定义镜像模型部署为在线服务时出现异常部署的在线服务状态为告警服务启动失败服务部署、启动、升级和修改时，拉取镜像失败如何处理？服务部署、启动、升级和修改时，镜像不断重启如何处理？服务部署、启动、升级和修改时，容器健康检查失败如何处理？服务部署、启动、升级和修改时，资源不足如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

$res 上述获取的值*4/300 ，即为当前网卡的接收速率，单位Byte/s。方法2：使用ib_write_bw测试RDMA的读写处理确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B：客户端向服务端mlx4_0网卡发送数据。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

SSE主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGPT回答的流式输出），相较于WebSocket（双向实时），它更加轻量级且易于实现。前提条件在线服务中的模型导入选择的镜像需支持SSE协议。约束与限制 SSE协议只支持部署在线服务。只支持自定义镜像导入模型部署的在线服务。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

上传镜像完成后，返回容器镜像服务控制台，在“我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。上传数据和算法至SFS ECS服务器已挂载SFS，请参考在ECS服务器挂载SFS Turbo存储。已经在ECS中设置权限，请参考在ECS中设置ModelArts用户可读权限。已经安装和配置obs

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
调用MaaS部署的模型服务 - AI开发平台ModelArts

调用MaaS部署的模型服务在ModelArts Studio大模型即服务平台部署成功的模型服务支持在其他业务环境中调用。约束限制只有“状态”是“运行中”的模型服务才支持被调用。步骤1：获取API Key 在调用MaaS部署的模型服务时，需要填写API Key用于接口的鉴权认证。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

训练场景主要查看自研的依赖包是否正常，查看pip list是否包含所需的包，查看容器直接调用的python是否是自己所需要的那个（如果容器镜像装了多个python，需要设置python路径的环境变量）。测试训练启动脚本。优先使用手工进行数据复制的工作并验证一般在镜像里不包含训练所用的数据和

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

[root@Server-ddff ~]# 发现和当前内核一致，因此即使reboot也不会更改服务器的内核版本。如果希望升级指定的操作系统内核，也可以执行grub2-set-default进行设置默认启动内核版本。但操作系统内核升级可能带来的问题。例如在操作系统内核4.18.0-147

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

ModelArts在线服务的API接口组成规则是什么？模型部署成在线服务后，用户可以获取API接口用于访问推理。 API接口组成规则如下： https://域名/版本/infer/服务ID 示例如下： https://6ac81cdfac4f4a30be95xxxbb682.apig

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

经过对裸金属服务器排查，发现nvidia-drvier和cuda都已安装，并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。执行以下命令，查看NVIDIA和CUD

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
管理ModelArts服务的委托授权 - AI开发平台ModelArts

调用查看授权列表接口查看用户的授权信息。在管理用户授权时，可以调用删除授权接口删除指定用户的授权或者删除全量用户的授权。前提条件已获取IAM的EndPoint和ModelArts的EndPoint。确认服务的部署区域，获取项目名称和ID、获取帐号名和ID和获取用户名和ID。操作步骤

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc -

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

例如您的模型是Pytorch框架，部署为在线服务时出现告警：ModuleNotFoundError: No module named ‘model_service.tfserving_model_service’，则需要您在推理代码customize_service.py里使用from

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
管理我的服务 - AI开发平台ModelArts

管理我的服务扩缩容模型服务实例数修改模型服务QPS 升级模型服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
Lite Server使用流程 - AI开发平台ModelArts

Server提供多样化的xPU裸金属服务器，赋予用户以root账号自主安装和部署AI框架、应用程序等第三方软件的能力，为用户打造专属的云上物理服务器环境。用户只需轻松选择服务器的规格、镜像、网络配置及密钥等基本信息，即可迅速创建弹性裸金属服务器，获取所需的云上物理资源，充分满足算法工程师在日常训练和推理工作中的需求。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
升级模型服务 - AI开发平台ModelArts

升级模型服务在AI开发过程中，服务升级包括对已部署的模型服务进行优化，以提高性能、增加功能、修复缺陷，并适应新的业务需求。更新模型版本作为服务升级的一部分，涉及用新训练的模型版本替换原来的模型，以提高预测的准确性和模型的环境适应性。登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务

总条数： 1898

上一页
1
2
3
4
5
...
95
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置在线服务故障自动重启 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

服务部署 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

ModelArts在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

管理ModelArts服务的委托授权 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

管理我的服务 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

升级模型服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线