检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为
在ModelArts训练得到的模型欠拟合怎么办? 模型复杂化。 对同一个算法复杂化。例如回归模型添加更多的高次项,增加决策树的深度,增加神经网络的隐藏层数和隐藏单元数等。 弃用原来的算法,使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归,用随机森林来代替决策树。 增加更
在ModelArts的Notebook中,访问外网速度不稳定怎么办? 为了方便AI开发者在使用Notebook时访问外部资源,ModelArts提供了一个免费的共享网络代理服务。借助这个代理,开发者可以更加便捷地下载所需的各类资源,助力开发工作的顺利进行。 由于该网络代理免费且共
一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《购买弹性云服务器》。 购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
相关名词解释 名词 含义 裸金属服务器 裸金属服务器是一款兼具虚拟机弹性和物理机性能的计算类服务,为您和您的企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。 由于Server是一台裸金属服务器,在ModelArts管理控
'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法: 方法1:使用常用框架自行编码开发模型,支持“多边形”标注的数据集。 方法2:修改数据集,使用矩形标注。然后再启动训练作业。 父主题:
ECS获取基础镜像 Step1 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图1
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办? 如果已有launch.json文件,请直接看步骤三。 步骤一:打开launch.json文件 方法一:单击左侧菜单栏的Run(Ctrl+Shift+D)按钮,再单击create a launch
EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS:超节点服务器 SPOD:整柜服务器 SERVER:单台服务器 server_hps ServerHpsInfo
6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时,Notebook会自动恢复,您可以刷新页面,等待几分钟。 由于出现此错误,常见原因是内存占用满导致的,您可以尝试使用如下方法,从根本上解决错误。
在ModelArts自动学习中模型训练图片异常怎么办? 使用自动学习的图像分类或物体检测算法时,标注完成的数据在进行模型训练后,训练结果为图片异常。针对不同的异常情况说明及解决方案参见表1。 表1 自动学习训练中图片异常情况说明(图像分类和物体检测) 序号 图片异常显示字段 图片异常说明
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
pull image, retry later”,同时在“日志”页签中,无任何信息。 图1 部署在线服务异常 解决方法 出现此问题现象,通常是因为您部署的模型过大导致的。解决方法如下: 精简模型,重新导入模型和部署上线。 购买专属资源池,在部署上线为在线服务时,使用专属资源池进行部署。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
原因分析 Remote - SSH只能在开源的VSCode软件中使用。 解决方案 推荐使用开源VS Code软件。 父主题: VS Code连接开发环境失败故障处理
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。