搜索_华为云

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

Code，重新从Notebook实例列表页面打开VS Code（注意：需要关闭本地vscode，否则可能会报多个安装进程正在运行中）。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动弹性节点Server：单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。停止弹性节点Server：单击“停止”，在弹出的确认对话框中，确认信息无误，然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。停

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
Standard Notebook - AI开发平台ModelArts

Code调试代码无法进入源码怎么办？在ModelArts的Notebook中使用VS Code如何查看远端日志？在ModelArts的Notebook中如何打开VS Code的配置文件settings.json？在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿？

帮助中心 > AI开发平台ModelArts > 常见问题
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

Code，重新从Notebook实例列表页面打开VS Code（注意：需要关闭本地vscode，否则可能会报多个安装进程正在运行中）。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

Mode，将其设置为none。图1 打开Settings 图2 设置“Update: Mode”为“none” 父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
IEF节点边缘服务部署失败 - AI开发平台ModelArts

IEF节点边缘服务部署失败问题现象部署边缘服务时，出现“异常”状态。原因分析1 部署边缘服务时，使用到IEF纳管的边缘节点，就需要用户给ModelArts的委托赋予Tenant Administrator权限，否则将无法成功部署边缘服务。具体可参见IEF的权限说明。处理方法1 在M

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

原因分析出现该问题的可能原因如下：用户的自定义镜像中无ascend_check工具，导致启动预检失败。用户的自定义镜像中的ascend相关工具不可用，导致预检失败。处理方法通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
重置节点后无法正常使用？ - AI开发平台ModelArts

cano没有污点容忍，且集群内只有一个节点，导致volcano无法启动，进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动，使得污点无法被自动清理。处理方法（推荐）解决方案一（按需使用volcano调度器）： CCE页面上修改默认调度器为kube-scheduler。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

昇腾系列AI处理器DDR内存利用率百分比（Percent） 0～100% 连续2个周期原始值 > 95% 建议排查是否符合业务资源使用预期，如果业务无问题，无需处理。 AI处理器HBM内存总量 ma_container_npu_hbm_bytes 昇腾系列AI处理器HBM总内存（昇腾snt9

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志问题现象创建模型失败，构建日志提示超时“Model image build task timed out”，没有详细构建日志。图1 模型镜像构建任务超时原因分析 imagePacker构建镜像有超时时间限制，默认值为30

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用ChatGLM3-6B或GLM-4-9B模型微调后，权重校验失败 - AI开发平台ModelArts

ChatGLM3-6B或GLM-4-9B调优转换后的模型文件中配置文件与原始文件有差异，导致权重校验失败。问题影响 ChatGLM3-6B或GLM-4-9B调优转换后的模型无法使用权重校验。处理方法 ChatGLM3-6B或GLM-4-9B模型调优后，不建议进行权重校验。父主题： Studio

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
服务部署 - AI开发平台ModelArts
服务部署 - AI开发平台ModelArts

部署的在线服务状态为告警服务启动失败服务部署、启动、升级和修改时，拉取镜像失败如何处理？服务部署、启动、升级和修改时，镜像不断重启如何处理？服务部署、启动、升级和修改时，容器健康检查失败如何处理？服务部署、启动、升级和修改时，资源不足如何处理？模型使用CV2包部署在线服务报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
Standard模型训练 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？在ModelArts中训练好后的模型如何获取？在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？在ModelArts上训练模型如何配置输入输出数据？在ModelArts上如何提升训练效率并减少与OBS的交互？

帮助中心 > AI开发平台ModelArts > 常见问题
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境注意事项本文旨在指导如何在Snt9b裸金属服务器上，进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项：首次装机时需要配置存储、固件、驱动、网络访问等基础内容，这部分配置尽量稳定减少变化。裸机上的开发形

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
Lite Cluster资源使用 - AI开发平台ModelArts

Lite Cluster资源使用在Lite Cluster资源池上使用Snt9B完成分布式训练任务在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练在Lite Cluster资源池上使用Snt9B完成推理任务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
Lite Server资源使用 - AI开发平台ModelArts

Lite Server资源使用 LLM/AIGC/数字人基于Server适配NPU的训练推理指导 GPT-2基于Server适配PyTorch GPU的训练推理指导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限，只有使用权限。推荐给子用户配置此权限。如果需要给子用户开通专属资源池的创建、更新、删除权限，此处要勾选ModelArts FullAccess，请谨慎配置。 ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

问题现象训练失败并提示“Cann软件与Ascend驱动版本不匹配”。原因分析当昇腾规格的训练作业在ModelArts训练平台上运行时，会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配，则会立即训练失败，避免后续无意义的运行时长。解决方案专属资

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务场景描述本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务，随后登录至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用

总条数： 1168

上一页
1
...
8
9
10
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

Standard Notebook - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

使用ChatGLM3-6B或GLM-4-9B模型微调后，权重校验失败 - AI开发平台ModelArts

服务部署 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

Lite Cluster资源使用 - AI开发平台ModelArts

Lite Server资源使用 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线