检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Code,重新从Notebook实例列表页面打开VS Code(注意:需要关闭本地vscode,否则可能会报多个安装进程正在运行中)。 父主题: VS Code连接开发环境失败故障处理
启动弹性节点Server:单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。 停止弹性节点Server:单击“停止”,在弹出的确认对话框中,确认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停
Code调试代码无法进入源码怎么办? 在ModelArts的Notebook中使用VS Code如何查看远端日志? 在ModelArts的Notebook中如何打开VS Code的配置文件settings.json? 在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿?
Code,重新从Notebook实例列表页面打开VS Code(注意:需要关闭本地vscode,否则可能会报多个安装进程正在运行中)。 父主题: VS Code连接开发环境失败故障处理
Mode,将其设置为none。 图1 打开Settings 图2 设置“Update: Mode”为“none” 父主题: VS Code连接开发环境失败故障处理
IEF节点边缘服务部署失败 问题现象 部署边缘服务时,出现“异常”状态。 原因分析1 部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明。 处理方法1 在M
原因分析 出现该问题的可能原因如下: 用户的自定义镜像中无ascend_check工具,导致启动预检失败。 用户的自定义镜像中的ascend相关工具不可用,导致预检失败。 处理方法 通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设
cano没有污点容忍,且集群内只有一个节点,导致volcano无法启动,进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动,使得污点无法被自动清理。 处理方法 (推荐)解决方案一(按需使用volcano调度器): CCE页面上修改默认调度器为kube-scheduler。
昇腾系列AI处理器DDR内存利用率 百分比(Percent) 0~100% 连续2个周期原始值 > 95% 建议 排查是否符合业务资源使用预期,如果业务无问题,无需处理。 AI处理器HBM内存总量 ma_container_npu_hbm_bytes 昇腾系列AI处理器HBM总内存(昇腾snt9
创建模型失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建模型失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
ChatGLM3-6B或GLM-4-9B调优转换后的模型文件中配置文件与原始文件有差异,导致权重校验失败。 问题影响 ChatGLM3-6B或GLM-4-9B调优转换后的模型无法使用权重校验。 处理方法 ChatGLM3-6B或GLM-4-9B模型调优后,不建议进行权重校验。 父主题: Studio
部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理? 模型使用CV2包部署在线服务报错
在ModelArts训练得到的模型欠拟合怎么办? 在ModelArts中训练好后的模型如何获取? 在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练? 在ModelArts上训练模型如何配置输入输出数据? 在ModelArts上如何提升训练效率并减少与OBS的交互?
NPU服务器上配置Lite Server资源软件环境 注意事项 本文旨在指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项: 首次装机时需要配置存储、固件、驱动、网络访问等基础内容,这部分配置尽量稳定减少变化。 裸机上的开发形
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务
Lite Server资源使用 LLM/AIGC/数字人基于Server适配NPU的训练推理指导 GPT-2基于Server适配PyTorch GPU的训练推理指导
授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 如果需要给子用户开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts FullAccess,请谨慎配置。 ModelArts
问题现象 训练失败并提示“Cann软件与Ascend驱动版本不匹配”。 原因分析 当昇腾规格的训练作业在ModelArts训练平台上运行时,会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配,则会立即训练失败,避免后续无意义的运行时长。 解决方案 专属资
在Lite Cluster资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务,随后登录至该Pod容器内部署在线服务,并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。