检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
出现该问题的可能原因如下: 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 本地数据、文件保存将"/cache"目录3.5T空间用完了。 云上训练磁盘空间一般指如下两个目录的磁盘空间: “/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。
ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError: Error tokenizing
Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx 问题现象 在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” 问题现象 安装ModelArts SDK报错,完整报错信息“ERROR: Could not install packages due to
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” 问题现象 镜像保存时报错BuildImage,True,Commit successfully|PushImage,False,Task
Label名字 Label描述 容器级别指标 pod_name 容器所属pod的名字。 pod_id 容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name
用户结束kernelgateway进程后报错Server Connection Error,如何恢复? 问题现象 当kernelgateway进程被结束后,出现如下报错,以及选不到Kernel。 图1 报错Server Connection Error截图 图2 选不到Kernel 原因分析 用户误操作引起的。
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象 训练作业失败,日志报出如下错误: RuntimeError: cuda runtime error (10) : invalid device ordinal
使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments 问题现象 使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments... 图1 在线服务报错 原因分析 根据报错日志分析,
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直
出现“save error”错误,可以运行代码,但是无法保存 如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。 大多数原因是华为云WAF安全拦截导致的。当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
输入输出目录不存在,报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时,报如下错误 "error_code": "ModelArts.3567", "error_msg":
Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error
ite Cluster的基本使用流程,帮助您快速上手。 图1 资源池架构图 如图所示为Lite Cluster架构图。Lite Cluster基于CCE服务实现对资源节点的管理,因此,用户首先需要购买一个CCE集群。在ModelArts控制台购买Lite Cluster集群时,M
Administrator BMS FullAccess IMS FullAccess DEW KeypairReadOnlyAccess VPC FullAccess ECS FullAccess SFS Turbo FullAccess OBS Administrator AOM FullAccess
集群类型:CCE Standard 集群版本:v1.23|v1.25|v1.28(推荐) 集群规模:50|200|1000|2000 集群网络模式:容器隧道网络|VPC 集群转发模式:iptables|ipvs 驱动和插件版本与CCE集群版本适配关系 表3 插件版本与CCE集群版本适配关系
配置Lite Cluster网络 本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“
故障现象 容器日志有error信息。 可能原因 集群节点没有下发topo文件和ranktable文件。 操作步骤 在ModelArts Lite专属资源池列表,单击资源池名称,进入专属资源池详情页面。 在基本信息页面单击CCE集群,跳转到CCE集群详情页面。 在CCE集群详情页,选择