搜索_华为云

设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
查看Standard专属资源池详情 - AI开发平台ModelArts

查看Standard专属资源池详情资源池详情页介绍登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，进入“Standard资源池”列表。在“Standard资源池”列表页的搜索框中，支持根据资源池的名称、资源池ID、资源池的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
使用Notebook进行代码调试 - AI开发平台ModelArts

cd /data/demo 执行训练命令： /home/ma-user/anaconda3/envs/pytorch/bin/python main.py -a resnet50 -b 128 --epochs 5 dog_cat_1w/ 告警"RequestsDependencyWarning:

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
Step4 测试用户权限 - AI开发平台ModelArts

Step4 测试用户权限由于4中的权限需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

--modelFile=resnet50.mindir --device=Ascend 为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark性能测试，具体使用方式参考Tailor指导文档。在某些推理场景中，模型输入的shape可能是不固定的，因此需要支持用户指定模型的动态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
方案概述 - AI开发平台ModelArts
方案概述 - AI开发平台ModelArts

方案概述场景描述本方案介绍了在ModelArts的Lite Server上使用昇腾计算资源开展DeepSeek R1和DeepSeek V3模型推理部署的详细过程。资源规划本方案部署使用BF16权重需要配置4台Ascend Snt9B资源，用W8A8量化权重需要2台Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset) else: train_sampler = None train_loader

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
分离部署推理服务 - AI开发平台ModelArts

号进行排序，端口之间用`,`分隔开作为该环境变量的输入。 USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

号进行排序，端口之间用`,`分隔开作为该环境变量的输入。 USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

包月两种不同的计费模式的消费情况。此案例中的单价仅为示例，且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。在使用ModelArts进行AI开发时，会将数据保存至OBS、EVS或SFS中，此时会产生单独的存储计费，具体费用

 帮助中心 > AI开发平台ModelArts > 计费说明
终止训练作业 - AI开发平台ModelArts

"true"（JupyterLab训练应用程序）。 "tensorboard/enable": "true"（TensorBoard训练应用程序）。 "mindstudio-insight/enable": "true"（MindStudio Insight训练应用程序）。表5 Status

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

ror错误？问题现象 Notebook中，运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device 原因分析因为编译的时候需要设置setup

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？问题现象服务部署、启动、升级和修改时，容器健康检查失败。原因分析容器提供的健康检查接口调用失败。容器健康检查接口调用失败，原因可能有两种：镜像健康检查配置问题模型健康检查配置问题解决方法根据容器日志进行排查，查看健康检查接口失败的具体原因。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

WARNING: 4 try: IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
保存镜像时报错“too many layers in your image”如何解决？ - AI开发平台ModelArts

保存镜像时报错“too many layers in your image”如何解决？问题现象保存镜像时报错“too many layers in your image”。原因分析用户创建Notebook时所选用的镜像是经过多次保存的自定义镜像或用户自行注册的镜像，基于该

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__.py:107:

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” 问题现象训练作业日志运行出现如下报错：Runtimeerror: Dataloader worker (pid 46212

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？ ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后，在训练启动文件被执行前系统会执行如下命令，以安装用户指定的Python Packages。 pip

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

"package_name": "pytest" }, { "restraint": "ATLEAST", "package_version": "5.0.0", "package_name":

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ ModelArts提供多版本支持和灵活的流量策略，您可以通过使用灰度发布，实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时，原服务预测API不会变化。调整模型版本的操作可以参考如下的步骤。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署

总条数： 1684

上一页
1
...
63
64
65
...
85
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置在线服务故障自动重启 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

Step4 测试用户权限 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

方案概述 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

保存镜像时报错“too many layers in your image”如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线