检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
如果还需要在CES上设置监控告警,则需要再加上CES FullAccess权限,以及SMN消息通知权限。 (可选)配置VPC权限。如果用户在创建专属资源池过程中,需要开启自定义网络配置,此处需要授予用户VPC权限。 (可选)配置SFS和SFS Turbo权限。如果用户在专属资源池中挂载SFS系统作为开发环境或训练的存储时,需要授予使用权限。
"vpc:*:get", "vpc:*:list", "vpc:networks:create", "vpc:networks:update",
键。不得以"CCE-"或"__type_baremetal"开头 value String 值。 表10 NodeNetwork 参数 参数类型 描述 vpc String vpc id。 subnet String 子网id。 securityGroups Array of strings 安全组id集合。
Client,无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。 当服务器有网卡配置文件, NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager.service会优先读取网卡配置文件中的IP设置为主机IP, 此时无论DH
roce_id 否 String 服务器RoCE网络ID。 security_group_id 是 String 服务器所在的安全组ID。 subnet_id 是 String 服务器所在子网ID。 vpc_id 是 String 服务器所在虚拟私有云ID。 表5 EvsVolume 参数
键。不得以"CCE-"或"__type_baremetal"开头 value String 值。 表10 NodeNetwork 参数 参数类型 描述 vpc String vpc id。 subnet String 子网id。 securityGroups Array of strings 安全组id集合。
键。不得以"CCE-"或"__type_baremetal"开头 value String 值。 表9 NodeNetwork 参数 参数类型 描述 vpc String vpc id。 subnet String 子网id。 securityGroups Array of strings 安全组id集合。
Arts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 必选 SMN消息服务 授予子用户使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。 SMN FullAccess 必选 VPC虚拟私有云 子用户在创建Mo
xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
推理方式,取值为real-time/batch/edge。 vpc_id String 服务实例所在的虚拟私有云ID,服务自定义网络配置时返回。 subnet_network_id String 服务实例所在的子网的网络ID,服务自定义网络配置时返回。 security_group_id String
ModelArts的Notebook是否支持Keras引擎? 开发环境中的Notebook支持。训练作业和模型部署(即推理)暂时不支持。 Keras是一个用Python编写的高级神经网络API,它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf
访问在线服务支持的访问通道 通过公网访问通道的方式访问在线服务 通过VPC访问通道的方式访问在线服务 通过VPC高速访问通道的方式访问在线服务 父主题: 将模型部署为实时推理作业
通过采集和对比标杆(GPU/CPU)环境和昇腾环境上运行训练时的差异点来判断问题所在,主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe工具介绍。 一般场景的训练模型都是包括随机种子、数据集Shuffle、网络结构Dropout等操作的,目的是在网络阶段引入
SWR Admin 应用运维管理服务AOM AOM FullAccess 密钥管理服务KMS KMS CMKFullAccess 虚拟私有云服务VPC VPC FullAccess AI开发平台ModelArts ModelArts CommonOperations ModelArts
正常打开页面,表示当前用户具备ECS的操作权限。 验证VPC权限。 在左上角的服务列表中,选择VPC服务,进入VPC管理控制台。 在VPC管理控制台,单击右上角的“创建虚拟私有云”,如果能正常打开页面,表示当前用户具备VPC的操作权限。 验证DEW权限。 在左上角的服务列表中,选择DEW服务,进入DEW管理控制台。
个盘。 使用专属资源池部署服务才允许使用存储挂载的能力,并且专属资源池需要打通VPC或关联SFS Turbo。 - 打通VPC为打通SFS Turbo所在VPC和专属资源池网络,打通步骤请见打通VPC章节。 - 关联SFS Turbo:如果SFS Turbo为HPC型的文件系统,可使用关联SFS
Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否启动成功或者模型处理单个消息