检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
在SWR服务中的镜像作为模型的引擎,指定预先存储于OBS服务中的文件目录路径作为模型包来创建模型,轻松地应对ModelArts平台预置引擎无法满足个性化诉求的场景。 ModelArts将自定义引擎类型的模型部署为服务时,会先将模型相关的SWR镜像下载至集群中,用“uid=1000
支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。 labels Map<String,String> k8s标签,格式为key/value键值对。 tags Array of UserTag objects 资源标签,非特权池不能指定。 network NodeNetwork
String 标签属性默认值。 id String 标签属性ID。可通过调用标签列表查询。 name String 标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。 type String 标签属性类型。可选值如下: text:文本 select:单选下拉列表 values
支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。 labels Map<String,String> k8s标签,格式为key/value键值对。 tags Array of UserTag objects 资源标签,非特权池不能指定。 network NodeNetwork
ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办? 当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时,建议使用如下方法: import os os.chdir('/home/work/user-job-dir/xxx')
种计算的数学表达,都会带来结果的近似性。二者是完全不同的两个问题, 不能混为一谈。计算数值的近似性一定概率上会影响模型的收敛性,但是影响大模型收敛的原因是复杂且多样的,大模型本身也对计算差异有一定韧性,所以,不能简认地为计算过程的差异一定会导致模型收敛出现问题。算子的数值精度是计
服务部署、启动、升级和修改时,容器健康检查失败如何处理? 问题现象 服务部署、启动、升级和修改时,容器健康检查失败。 原因分析 容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 模型健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
容器时会用到,此处可以自己定义一个容器名称。 ${image_id}:镜像ID,通过docker images查看刚拉取的镜像ID。 容器不能挂载到/home/ma-user目录,此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下,拉起容器时会与基础镜像冲突,导致基础镜像不可用。
买界面可以被选择,但由于没有及时支付和创建资源池,导致该规格售罄创建失败。 建议您在创建界面更换规格重新创建资源池。 为什么无法使用资源池节点上的全部CPU资源? 由于资源池节点上会安装系统、插件等内容,因此不能完全使用所有资源。例如:资源池节点是8U,节点分配给系统组件部分CPU,可用的资源会小于8U。
String 标签属性默认值。 id String 标签属性ID。可通过调用标签列表查询。 name String 标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。 type String 标签属性类型。可选值如下: text:文本 select:单选下拉列表 values
支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。 labels Map<String,String> k8s标签,格式为key/value键值对。 tags Array of UserTag objects 资源标签,非特权池不能指定。 network NodeNetwork
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
变更计费模式 在购买专属资源池后,如果发现当前计费模式无法满足业务需求,您可以变更计费模式。 如果您需要长期使用当前按需购买的ModelArts专属资源池,可以将该专属资源池转为包年/包月计费模式,以节省开支。按需计费变更为包年/包月会生成新的订单,用户支付订单后,包年/包月资源将立即生效。
训练作业日志中提示“No such file or directory” 问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时,也会提示“No
ModelArts控制台为什么能看到创建失败被删除的专属资源池? 在控制台页面操作删除专属资源池后,后端服务需要进行资源实例释放。在资源实例释放过程中,用户依然可以查询到资源池。如果需要创建专属资源池,建议等待5min后再创建,且不要使用已创建过的专属资源池名称来命名新建的专属资
配额不足:查看账户的资源配额是否满足,若该账号下资源配额,包括核心数、RAM等,如果未满足也会导致创建失败,需要申请配额后再进行购买。 BMS机器内部错误:查看BMS界面,创建失败出现内部错误,该问题需要提工单给BMS进行进一步定位失败原因并解决。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,
CREATE_FAILED: 创建失败; CREATING: 创建中; DELETED: 已删除; DELETE_FAILED: 删除失败; DELETING: 删除中; ERROR: 错误; RUNNING: 运行中; STARTING: 启动中; START_FAILED: 启动失败; STOPPED:
Code,重新从Notebook实例列表页面打开VS Code(注意:需要关闭本地vscode,否则可能会报多个安装进程正在运行中)。 父主题: VS Code连接开发环境失败故障处理