搜索_华为云

ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？部署在线服务时，您可以选择性能更好的“实例规格”提高预测速度。例如使用GPU资源代替CPU资源。部署在线服务时，您可以增加“实例数”。如果实例数设置为1，表示后台的计算模式是单机模式；如果实例数设置大于1，表示后台的计算模

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

d/00skip-verify-peer.conf # 安装 horovod v0.22.1 已经编译好的 openmpi 3.0.0 文件 # https://github.com/horovod/horovod/blob/v0.22.1/docker/horovod/Dockerfile # https://github

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

elArts服务的权限系统策略 ModelArts CommonOperations ModelArts操作用户，拥有所有ModelArts服务操作权限除了管理专属资源池的权限系统策略 ModelArts Dependency Access ModelArts服务的常用依赖服务的权限

 帮助中心 > AI开发平台ModelArts > 产品介绍
配置Lite Server存储 - AI开发平台ModelArts

在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通，因此保证SFS Turbo与Server服务器在同一区域即可。当创建文件系统后，您需要使用弹性裸金属服务器来挂载该文件系统，具体步骤请参考挂载NFS协议类型文件系统到云服务器（Linux）。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
查看在线服务的事件 - AI开发平台ModelArts

查看在线服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Standard支持的AI框架 - AI开发平台ModelArts

<训练引擎名称_版本号>-[cpu | <cuda_版本号 | cann_版本号 >]-<py_版本号>-<操作系统名称_版本号>-< x86_64 | aarch64> 表4 训练作业支持的AI引擎工作环境系统架构系统版本 AI引擎与版本支持的cuda或Ascend版本 TensorFlow x86_64

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

d/00skip-verify-peer.conf # 安装 horovod v0.22.1 已经编译好的 openmpi 3.0.0 文件 # https://github.com/horovod/horovod/blob/v0.22.1/docker/horovod/Dockerfile # https://github

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
获取训练作业支持的AI预置框架 - AI开发平台ModelArts

"horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64", "engine_name" : "Horovod", "engine_version" : "horovod_0.20.0-tensorflow_2

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询数据集标签列表 - AI开发平台ModelArts

查询数据集标签列表功能介绍查询数据集下所有标签列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自定义镜像，使用的训练框架是MPI或Horovod。准备一个s

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
训练专属预置镜像列表 - AI开发平台ModelArts

7/site-packages 训练基础镜像详情（Horovod）介绍预置的Horovod镜像详情。引擎版本一：horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64 引擎版本二： horovod_0.22.1-pytorch_1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
查看批量服务的事件 - AI开发平台ModelArts

查看批量服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

orker。具体示例请参见：TensorFlow-GPU框架的代码示例mnist.py（单机）。 Horovod/MPI/MindSpore-GPU 使用Horovod/MPI/MindSpore-GPU预置框架来运行的启动文件，平台自动以mpirun命令启动之。使用ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
管理Standard专属资源池的游离节点 - AI开发平台ModelArts

如果资源中存在游离节点，即没有被纳管到资源池中的节点，可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。续费/开通自动续费/修改自动续费对于包

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
准备模型训练镜像 - AI开发平台ModelArts

1-py_3.7-ubuntu_18.04-x86_64 Horovod horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64 horovod_0.22.1-pytorch_1.8.0-cuda_10.2-py_3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
不同机型的对应的软件配套版本 - AI开发平台ModelArts

由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器类型卡类型 RDMA网络协议操作系统适用范围、约束

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

如果资源中存在游离节点，即没有被纳管到资源池中的节点，可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。续费/开通自动续费/修改自动续费对于包

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1711

上一页
1
2
3
4
5
...
86
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

获取训练作业支持的AI预置框架 - AI开发平台ModelArts

查询数据集标签列表 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

训练专属预置镜像列表 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

管理Standard专属资源池的游离节点 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线