检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Server资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Server网络 Server资源开通后,需要进行网络配置,才可使其与Internet通信。在后续配置存储和软件环境时需要Server服务器能够访问网络,因此需要先完成网络配置。 2 配置Lite Server存储 Server
0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。 表14 NetworkConnection 参数 参数类型 描述 peerConnectionList Array of peerConnectionList
all]: %s。 请正确配置RoCE网卡路由 NPU网络通信异常 NPU:Roce 端口未散列配置 RoCEUdpConfigError 重要 RoCE UDP端口未散列配置 请检查NPU RoCE UDP端口配置情况 影响NPU卡通信性能 系统内核自动升级预警 KernelUpgradeWarning
在ModelArts的Notebook中不同规格资源/cache目录的大小是多少? 创建Notebook时,可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。
在使用Notebook进行代码调试时,如果要开启“SSH远程开发”功能,需要选择密钥对,便于用户登录弹性云服务器时使用密钥对方式进行身份认证,提升通信安全。密钥对可免费创建。 如何创建密钥对? 配置权限 配置IAM权限。 使用华为云主账号创建一个开发者用户组user_group,将开发者
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 在每个节点容器内,启动Ray集群。 # 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export
172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export
加了。理论上Tree算法是比Ring算法更优的,但是Tree算法对网络的要求比Ring高,计算可能不太稳定。 Tree算法可以用更少的数据通信量完成all reduce计算,但用来测试性能不太合适。因此,会出现两节点实际带宽100,但测试出速度110,甚至130GB/s的情况。加
资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快
172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export
在ModelArts Standard上运行GPU训练作业的场景介绍 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。
查询节点池列表 功能介绍 查询节点池列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/nodepools
172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export
172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
部分区域的部分规格支持整柜购买,此时实例数会显示为“数量*整柜”,购买的实例总数为两者的乘积。整柜购买可实现不同任务间的物理隔离,避免通信冲突,在任务规模增大的同时保证计算性能线性度不下降。整柜下的实例生命周期需保持一致,需要一起创建、一起删除。 节点高级配置 开启“节点高级配置”后,可设置以下参数:
-alive.html),后台的实例运行是一直稳定的,重连即可再次连上。 解决方法 如果想保持长时间连接不断开,可以通过配置SSH定期发送通信消息,避免防火墙认为链路空闲而关闭。 客户端配置(用户可根据需要自行配置,不配置默认是不给服务端发心跳包),如图1,图2所示。 图1 打开VS
seed_all() 示例2:固定随机数,开启确定性计算。 seed_all(mode=True) 在多卡训练场景下由于通信算子计算累加计算顺序不确定,需要添加以下环境变量,固定通信算子计算的确定性: export HCCL_DETERMINISTIC=TRUE 固定随机数范围 seed_all函数可固定随机数的范围如下表所示。