搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSInstructionHandler：使用微调的moss数据集。 MBS 1 表示流水线并行中一个micro

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
日志提示“ValueError: label - AI开发平台ModelArts

日志提示“ValueError: label_map not match” 问题现象日志提示“ValueError: label_map not match”，且打印出标签数据，如： ValueError: label_map not match. {1:'apple', 2:'orange'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 问题现象创建训练作业时，提示ModelArts.2763 : 选择的支持实例无效，请检查请求中信息的合法性。原因分析用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

在线服务预测报错ModelArts.4206 问题现象在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，报错“ModelArts.4206”。原因分析 ModelArts.4206表示该API的请求流量超过了设定值。为了保证服务的平稳运行，ModelArts

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
查询模型runtime - AI开发平台ModelArts

sync：同步在线服务 async：异步在线服务 accelerators Array of Accelerator objects AI引擎可使用的加速卡。 arch Array of strings AI引擎架构，目前共两种： x86_64 aarch64 status_list Array

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
创建团队标注任务 - AI开发平台ModelArts

创建团队标注任务任务创建完成后，您可以在“我创建的”页签下看到新建的任务。登录ModelArts-Console 在ModelArts中，一般用户使用数据标注功能，直接是在“数据标注”模块操作，此模块包含数据标注、数据导入导出、智能标注、团队标注和管理等。团队标注任务创建成功后，团队成员

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
【下线公告】华为云ModelArts算法套件下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts算法套件下线公告华为云ModelArts服务算法套件将在2024年6月30日00:00（北京时间）正式退市。下线范围下线Region：华为云全部Region。下线影响正式下线后，ModelArts Notebook中将不会预置算法套件

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” 问题现象日志提示“root: XXX valid number is 0”，表示训练集/验证集/测试集的有效样本量为0，例如： INFO: root: Train valid number is 0. INFO:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
模型发布失败 - AI开发平台ModelArts

模型发布失败模型发布任务提交失败和模型发布失败问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取模型ID。进入“模型管理”页面，在模型管理页面找到自动学习任务中自动创建的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型发布
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路问题现象创建训练作业界面没有云存储名称和挂载路径这两个选项。原因分析用户的专属资源池没有进行网络打通，或者用户没有创建过SFS。处理方法在专属资源池列表中，单击资源池“ID/名称”，进入详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

用户执行huaweicloud.com相关API超时问题现象用户在Notebook里通过request请求接口时超时：GET pangu-xxx.cn-southwest-2.myhuaweicloud.com。原因分析在Notebook中访问公网需要通过代理，访问huawei

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志问题现象创建模型失败，构建日志提示超时“Model image build task timed out”，没有详细构建日志。图1 模型镜像构建任务超时原因分析 imagePacker构建镜像有超时时间限制，默认值为30

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
Standard资源池节点故障定位 - AI开发平台ModelArts

Standard资源池节点故障定位节点故障定位对于Standard资源池，ModelArts平台在识别到节点故障后，通过给K8S节点增加污点的方式（taint）将节点隔离避免新作业调度到该节点而受到影响，并且使本次作业不受污点影响。当前可识别的故障类型如下，可通过隔离码及对应检测方法定位故障。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
查询服务列表 - AI开发平台ModelArts

D。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 infer_type 否 String 推理方式，默认不过滤推理方式。取值包含： real-time：在线服务

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
资源池监控 - AI开发平台ModelArts

eInMillis + durationInMinutes * 60 * 1000)计算结束时间，如果计算出的结束时间大于当前系统时间，则使用当前系统时间 durationInMinutes：查询时间的跨度分钟数。取值范围大于0并且大于等于(endTimeInMillis - startTimeInMillis)

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？问题现象当kernelgateway进程被结束后，出现如下报错，以及选不到Kernel。图1 报错Server Connection Error截图图2 选不到Kernel

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障

总条数： 2410

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

日志提示“ValueError: label - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

【下线公告】华为云ModelArts算法套件下线公告 - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

模型发布失败 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线