检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法: 方法1:使用常用框架自行编码开发模型,支持“多边形”标注的数据集。 方法2:修改数据集,使用矩形标注。然后再启动训练作业。 父主题:
VS Code自动升级后,导致远程连接时间过长 问题现象 原因分析 由于VS Code自动升级,导致连接时需要重新下载新版vscode-server。 解决方法 禁止VS Code自动升级。单击左下角选择Settings项,搜索Update: Mode,将其设置为none。 图1
Token步骤如下: 登录Github,打开设置页面。 单击“Developer settings”。 单击“Personal access tokens > Generate new token”。 验证登录账号。 填写Token描述并选择权限,选择私有仓库访问权限,单击“Generate
Gallery的入口在哪里 在AI Gallery订阅商品失败怎么办? 在AI Gallery订阅的数据集可以在SDK中使用吗? AI Gallery支持哪些区域? AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的?
回信息为准) 解决方案 正常 开始部署服务。 Start to deploy service. - 异常 资源不足,等待资源释放。 Lack of resources, transform state to waiting. 等待资源释放后重试。 异常 xxx资源不足,服务调度失败。补充信息:xxx
支持本地IDE远程访问Notebook Notebook提供了远程开发功能,通过开启SSH连接,用户本地IDE可以远程连接到ModelArts的Notebook开发环境中,调试和运行代码。 对于使用本地IDE的开发者,由于本地资源限制,运行和调试环境大多使用团队公共搭建的资源服务器,并且
NCCL是一个提供GPU间通信原语的库,实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时,可以通过调整NCCL的环境变量尝试解决问题。 处理步骤 进入状态“运行失败”的训练作业详情页,单击“日志”页签,查看NCCL报错。 如果出现报错“NCCL timeout”或者“RuntimeError:
参见表3 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 公共资源池 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息,仅显示模型支持的资源 xxx 实例数 设置实例数。 1 更多选项
创建训练作业 创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 训练环境中不同规格资源“/cache”目录的大小 训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在Mod
在您使用自定义镜像功能时,ModelArts可能需要访问您的容器镜像服务SWR、对象存储服务OBS等依赖服务,如果没有授权,这些功能将不能正常使用。建议您使用委托授权功能,将依赖服务操作权限委托给ModelArts服务,让ModelArts以您的身份使用依赖服务,代替您进行一些资源操作。详细操作参见使用委托授权。
Step6 在ModelArts上创建训练作业 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在ModelArts管理控制台,左侧导航栏中选择“训练管理
Step6 在ModelArts上创建训练作业 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如未完成,请参考快速配置ModelArts委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在ModelArts管理控制台,左侧导航栏中选择“模型训练
DevServer驱动版本要求23.0.6。 资源规格要求 本文档中的模型运行环境是ModelArts Lite的DevServer。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 如果使用DevServer资源,请参考DevServer资源开通,购买DevServer资源,并确保机器已
DevServer驱动版本要求23.0.6。 资源规格要求 本文档中的模型运行环境是ModelArts Lite的DevServer。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 如果使用DevServer资源,请参考DevServer资源开通,购买DevServer资源,并确保机器已
平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。 通过CloudShell登录到Linux工作页面,检查GPU工作情况:
系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1
系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1
在ModelArts控制台购买Server资源。 资源配置 完成资源购买后,需要对网络、存储、软件环境进行相关配置。 资源使用 完成资源配置后,您可以登录到服务器进行训练和推理,具体案例可参考Lite Server资源使用。 资源管理 Lite Server提供启动、停止、切换操作系统等管
ModelArts服务具备租户资源隔离能力,避免单租户资源被攻击导致爆炸半径大,影响其他租户。 ModelArts服务具备资源池和隔离能力,避免单租户资源被攻击导致爆炸半径过大风险。 ModelArts服务定义并维护了性能规格用于自身的抗攻击性。例如:设置API访问限制,防止恶意接口调用等场景。
典型场景配置实践 个人用户快速配置ModelArts访问权限 配置ModelArts基本使用权限 给子账号配置开发环境基本使用权限 给子账号配置训练作业基本使用权限 给子账号配置部署上线基本使用权限 管理员和开发者权限分离 使用Cloud Shell登录训练容器 限制用户使用公共资源池 委托授权ModelArts云服务使用SFS