检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
按实例数量:每批次驱动升级的实例数量为设置的实例数量。 对于不同的升级方式,滚动升级选择节点的策略会不同: 如果升级方式为安全升级,则根据滚动实例数量选择无业务的节点,隔离节点并滚动升级。 如果升级方式为强制升级,则根据滚动实例数量随机选择节点,隔离节点并滚动升级。 无业务节点定义:在资源池详情“节点”页签下,如果G
面提示跳转到费用中心进行续费操作。 在费用中心续费 进入“费用中心 > 续费管理”页面。 自定义查询条件。可在“手动续费项”、“自动续费项”、“到期转按需项”、“到期不续费项”页签查询全部待续费资源,对资源进行手动续费的操作。 所有需手动续费的资源都可归置到“手动续费项”页签,具体操作请参见如何恢复为手动续费。
填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 图1 创建数据处理基本信息 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理
<img>img_path</img>\n{your prompt},其中id表示对话中的第几张图片。"img_path"可以是本地的图片或网络地址。 对话中的检测框可以表示为<box>(x1,y1),(x2,y2)</box>,其中 (x1, y1) 和(x2, y2)分别对应左上角和右下角的坐标,并且被归一化到[0
<img>img_path</img>\n{your prompt},其中id表示对话中的第几张图片。"img_path"可以是本地的图片或网络地址。 对话中的检测框可以表示为<box>(x1,y1),(x2,y2)</box>,其中 (x1, y1) 和(x2, y2)分别对应左上角和右下角的坐标,并且被归一化到[0
如果是多个节点复制不同步,并且没有barrier的话导致的超时,可以在复制数据之前,先进行torch.distributed.init_process_group(),然后再根据local_rank()==0去复制数据,之后再调用torch.distributed.barrier()等待所有rank完成复制。具体可参考如下代码:
如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。 处理方法 建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。 如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。
请注意,数据文件大小不等于内存占用大小,需仔细评估内存使用情况。 退出码139 请排查安装包的版本,可能存在包冲突的问题。 排查办法 根据错误信息判断,报错原因来源于用户代码。 您可以通过以下两种方式排查: 线上环境调试代码(仅适用于非分布式代码) 在开发环境(notebook)申请相同规格的开发环境实例。
用户在运营平台选择的折扣信息。 os.modelarts/service.console.url 否 String 订购订单支付完成后跳转的url地址。 os.modelarts/order.id 否 String 订单id,包周期资源创建或者计费模式变更的时候该参数必需。 表5 NodePoolSpec
建。 “策略配置方式”:选择可视化视图或者JSON视图均可。 “策略内容”:拒绝,云服务中搜索“ModelArts”服务并选中,“操作”中查找写操作“modelarts:trainJob:create”、“modelarts:notebook:create”和“modelarts
ModelArts训练中不同规格资源“/cache”目录的大小是多少? ModelArts训练作业为什么存在/work和/ma-user两种超参目录? 如何查看ModelArts训练作业资源占用情况? 如何将在ModelArts中训练好的模型下载或迁移到其他账号?
下载,即“data”文件是否存在。 cd /home/ma-user/work ls 在“Terminal”环境进行编译,具体编译方式请您根据业务需求进行。 将编译结果使用Moxing复制至OBS中 。代码示例如下: import moxing as mox mox.file.m
在共享页签,单击“共享镜像”,在新窗口中输入共享的账号名称等,单击“确定”。 用户A的操作: 登录容器镜像服务控制台,在“我的镜像>他人共享”页签下,查看用户B共享的镜像,单击镜像名称进入镜像详情。 按照“Pull/Push指南”页签提供的操作方法,将用户B共享的镜像Pull下来,即作为自有镜像。
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 无 请求示例 如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。
一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Notebook中,使用moxing接口,访问对应的OBS桶,并读取数据。举例如下:
7-aarch64-snt3p Ascend snt3p Notebook、训练、推理部署 华北-北京四 开发环境Notebook 开发环境的Notebook,根据不同的工作环境,对应支持的镜像和版本有所不同。 表3 新版Notebook支持的镜像 镜像名称 镜像描述 适配芯片 支持SSH远程开发访问
登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多 > 驱动升级”。 在“驱动升级”弹窗中,会
新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。 建议与总结 在创建训练作业前,推荐您先使用Mode
ModelArts自动学习,为入门级用户提供AI零代码解决方案 支持图片分类、物体检测、预测分析、声音分类场景 自动执行模型开发、训练、调优和推理机器学习的端到端过程 根据最终部署环境和开发者需求的推理速度,自动调优并生成满足要求的模型 ModelArts自动学习,为资深级用户提供模板化开发能力 提供“自动学
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 tags 是 Array of TmsTagForDelete