搜索_华为云

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示"write line error" - AI开发平台ModelArts

出现该问题的可能原因如下：程序运行过程中，产生了core文件，core文件占满了"/"根目录空间。本地数据、文件保存将"/cache"目录3.5T空间用完了。云上训练磁盘空间一般指如下两个目录的磁盘空间： “/”根目录，是docker中配置项“base size”，默认是10G，云上统一改为50G。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象使用pandas读取csv数据表时，日志报出如下错误导致训练作业失败： pandas.errors.ParserError: Error tokenizing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx - AI开发平台ModelArts

Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx 问题现象在Notebook中安装依赖包时报错，报错截图如下：原因分析 pypi源没有这个包或源不可用。解决方案使用别的源下载。 pip install -i 源地址

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” 问题现象安装ModelArts SDK报错，完整报错信息“ERROR: Could not install packages due to

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” 问题现象镜像保存时报错BuildImage,True,Commit successfully|PushImage,False,Task

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Label名字 Label描述容器级别指标 pod_name 容器所属pod的名字。 pod_id 容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？问题现象当kernelgateway进程被结束后，出现如下报错，以及选不到Kernel。图1 报错Server Connection Error截图图2 选不到Kernel 原因分析用户误操作引起的。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments 问题现象使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments... 图1 在线服务报错原因分析根据报错日志分析，

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Lite Cluster高危操作一览表 - AI开发平台ModelArts

Lite Cluster高危操作一览表当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
出现“save error”错误，可以运行代码，但是无法保存 - AI开发平台ModelArts

出现“save error”错误，可以运行代码，但是无法保存如果当前Notebook还可以运行代码，但是无法保存，保存时会提示“save error”错误。大多数原因是华为云WAF安全拦截导致的。当前页面，即用户的输入或者代码运行的输出有一些字符被华为云拦截，认为有安全风险。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

输入输出目录不存在，报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时，报如下错误 "error_code": "ModelArts.3567", "error_msg":

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Lite Cluster使用流程 - AI开发平台ModelArts

ite Cluster的基本使用流程，帮助您快速上手。图1 资源池架构图如图所示为Lite Cluster架构图。Lite Cluster基于CCE服务实现对资源节点的管理，因此，用户首先需要购买一个CCE集群。在ModelArts控制台购买Lite Cluster集群时，M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
Lite Cluster资源开通 - AI开发平台ModelArts

Administrator BMS FullAccess IMS FullAccess DEW KeypairReadOnlyAccess VPC FullAccess ECS FullAccess SFS Turbo FullAccess OBS Administrator AOM FullAccess

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
不同机型的对应的软件配套版本 - AI开发平台ModelArts

集群类型：CCE Standard 集群版本：v1.23|v1.25|v1.28（推荐）集群规模：50|200|1000|2000 集群网络模式：容器隧道网络|VPC 集群转发模式：iptables|ipvs 驱动和插件版本与CCE集群版本适配关系表3 插件版本与CCE集群版本适配关系

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

故障现象容器日志有error信息。可能原因集群节点没有下发topo文件和ranktable文件。操作步骤在ModelArts Lite专属资源池列表，单击资源池名称，进入专属资源池详情页面。在基本信息页面单击CCE集群，跳转到CCE集群详情页面。在CCE集群详情页，选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用

总条数： 2083

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx - AI开发平台ModelArts

安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

出现“save error”错误，可以运行代码，但是无法保存 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线