检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建网络 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群 Cluster”页面。 切换到“网络”页签,单击“创建”,弹出“创建网络”页面。 图1 网络列表 在“创建网络”弹窗中填写网络信息。 网络名称:创建网络时默认生成网络名称,也可自行修改。
查询网络资源列表 功能介绍 查询网络资源列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/networks 表1 路径参数
tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 问题现象 使用MoXing训练模型,“global_step”放在Adam名称范围下,而非MoXing代码中没有Adam名称范围,如图1所示。其中1为使用MoXing代码,2代表非MoXing代码。
网络调整公告 ModelArts针对网络进行安全加固和优化,新的网络模式可以为用户的资源提供更好的隔离性,提升云上资源的安全。为保障您的网络安全,建议您后续使用新网络创建Standard资源池。 表1 上线局点 上线局点 上线时间 华东二 2024年10月29日 20:00 父主题:
object 当前网络与其他云服务的连通信息。 表6 NetworkConnection 参数 是否必选 参数类型 描述 peerConnectionList 否 Array of peerConnectionList objects Peer方式打通网络列表。 表7 peerConnectionList
NetworkConnection object 网络连接更新信息。 表7 NetworkConnection 参数 是否必选 参数类型 描述 peerConnectionList 否 Array of peerConnectionList objects Peer方式打通网络列表。 表8 peerConnectionList
训练网络迁移总结 确保算法在GPU训练时,持续稳定可收敛。避免在迁移过程中排查可能的算法问题,并且要有好的对比标杆。如果是NPU上全新开发的网络,请参考PyTorch迁移精度调优排查溢出和精度问题。 理解GPU和NPU的构造以及运行的差别,有助于在迁移过程中分析问题并发挥NPU的
Network:网络 metadata NeworkMetadata object 网络资源的metadata信息。 spec NetworkSpec object 网络资源的描述信息。 status NetworkStatus object 网络资源的状态信息。 表3 NeworkMetadata
配置Lite Server网络 Server创建后,需要进行网络配置,才可使其与Internet通信,本章节介绍网络配置步骤。网络配置主要分为以下两个场景: 单个弹性公网IP用于单个Server服务器:为单台Server服务器绑定一个弹性公网IP,该Server服务器独享网络资源。 单个弹性
Snt9B单机单卡。 表1 环境要求 名称 版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.907-xxx.zip软件包中的AscendCloud-AIGC-6
Network:网络 metadata NeworkMetadata object 网络资源的metadata信息。 spec NetworkSpec object 网络资源的描述信息。 status NetworkStatus object 网络资源的状态信息。 表3 NeworkMetadata
Server资源软件环境 场景描述 本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤,您可针对需要安装的软件查看对应的内容:
配置Lite Cluster网络 本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“
NPU服务器上配置Lite Server资源软件环境 注意事项 本文旨在指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项: 首次装机时需要配置存储、固件、驱动、网络访问等基础内容,这部分配置尽量稳定减少变化。 裸机上的开发形
Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。 父主题: VS Code连接开发环境失败故障处理
安装VS Code软件 VS Code下载方式: 下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求: 建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下:
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
为什么项目删除完了,仍然还在计费? 如何获取访问密钥? 如何在Notebook中读写OBS文件? 在ModelArts中部署模型时,为什么无法选择Ascend Snt3资源? 如何查看ModelArts中正在收费的作业? 如何查看ModelArts消费详情? 更多 自动学习 自动学习生成的模型,存储在哪里?支持哪些其他操作?
不同机型的对应的软件配套版本 由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器
放处于宽限期的节点。 退订/释放操作无法恢复,请谨慎操作。 删除网络 当AI业务开发不再需要使用网络时,您可以删除网络。 请注意,删除网络会导致使用该网络的资源池网络不可用,请谨慎操作。 在“网络”页签,单击某个网络操作列的“更多 > 删除”。 确认删除,单击“确定”即可。 父主题: