检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
npu dcmi net异常。 NPU网络链接异常。 A050129 NPU 其他 NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定,存在闪断情况。通过“hccn_tool-i
用户名,GaussDB(DWS)数据需提供此参数。 user_password String 用户密码,GaussDB(DWS)数据需提供此参数。 vpc_id String MRS集群所在的vpc的ID。 表8 FileCopyProgress 参数 参数类型 描述 file_num_finished Long
swr_path 是 String SWR镜像地址。 visibility 否 String 镜像可见度,默认值PRIVATE。枚举值: PRIVATE:私有镜像。 PUBLIC: 所有用户可以根据ImageId来进行只读使用。 workspace_id 否 String 工
和使用。 基于工作空间可以实现资源逻辑隔离、资源配额管理、细粒度鉴权和资源清理能力。工作空间组件可以将ModelArts各类资源整合,以工作空间体现给企业项目管理服务。 工作空间支持3种访问控制: PUBLIC:租户(主账号和所有子账号)内部公开访问。 PRIVATE:仅创建者和主账号可访问。
异常 停止边缘服务失败。 Failed to stop service. 请联系技术支持。 正常 消费[%d]边缘模型配额。 Consume [%d] edge model quotas. 请联系技术支持。 正常 返回[%d]边缘模型配额。 Return [%d] edge model
异常 停止边缘服务失败。 Failed to stop service. 请联系技术支持。 正常 消费[%d]边缘模型配额。 Consume [%d] edge model quotas. 请联系技术支持。 正常 返回[%d]边缘模型配额。 Return [%d] edge model
clone私有仓库和git push文件时会出现如下报错: 原因分析 原因为Github已取消密码授权方式,此时在git clone私有仓库和git push文件时需要在授权方式框中输入token。 解决方案 使用token替换原先的密码授权方式,在git clone私有仓库和git
listAllNotebooks细粒度权限。 方案二:使用工作空间功能:目前工作空间功能是“受邀开通”状态,作为企业用户您可以通过您对口的技术支持申请开通。 父主题: 权限相关
处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
3551:到obs检查输入数据目录是否存在,如果不存在,请按照实际需要创建obs目录;如果检查发现目录存在,但依然报同样的错,可以提工单申请技术支持 ModelArts.3567:用户只能访问自己账号下的obs目录,ModelArts在读取其他用户obs下的数据时,需要用户委托权限
持选择Containerd或Docker作为容器引擎。 节点池名称:新建节点池的名称,可自定义。 虚拟私有云:默认为CCE集群所在VPC网络,不可修改。 节点子网:选择同一VPC网络下的子网作为节点子网,新创建的节点将会使用该子网资源。 关联安全组:用于指定节点池创建出来的节点使
一般呈正态分布。主要用于判断待检测物体的亮度。在一些特殊场景中只有物体的部分亮度较暗,可以看是否满足要求。 按清晰度统计框数量的分布 Clarity of Bounding Boxes 横坐标:目标框的清晰度,值越大表示越清晰。 纵坐标:框数量(统计所有图片中的框)。 主要用于判断待检
ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。 本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch
日志提示“ Network is unreachable” 问题现象 在使用pytorch时,将torchvision.models中的pretrained置为了True,日志中出现如下报错: ‘OSError: [Errno 101] Network is unreachable’
查看训练作业的“日志”,出现报错“RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno:
在JupyterLab中使用MindInsight可视化作业 ModelArts支持在开发环境中开启MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。 MindInsight能可视化展现出训练过程中的标量、图像、计算图以及模
配置Workflow的输入输出目录 功能介绍 统一存储主要用于工作流的目录管理,帮助用户统一管理一个工作流中的所有存储路径,主要分为以下两个功能: 输入目录管理:开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理,规定用户按照自己的目录规划来存放数据,而存储的根目录可以根
netes基础知识、网络知识、存储和镜像知识。 配置流程 图1 Lite Cluster资源配置流程图 表1 Cluster资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Cluster网络 购买资源池后,需要弹性公网IP并进行网络配置,配置网络后可通过公网访问集群资源。
ModelArts旧版训练全面上线以后为众多开发者提供了AI训练能力,其中训练服务作为基础服务之一,经过持续迭代已经无法完全满足众多开发者的新特性需求。基于服务演进,ModelArts团队已于2021年上线新版训练,力求解决存在的历史问题,并为新特性提供高性能、高易用、可扩展、可演进的底座,给
要迁移的训练任务代码在GPU上多次训练稳定可收敛。训练业务代码和数据,应该确保在GPU环境中能够运行,并且训练任务有稳定的收敛效果。 本文只针对基于PyTorch的训练代码迁移。此处假设用户使用基于PyTorch的训练代码进行迁移。其他的AI引擎如TensorFlow、Caffe等不在本指导的讨论范围中。 已完