检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询OS的配额 功能介绍 获取ModelArts OS服务中部分资源的配额,如资源池配额、网络配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
查询OS的配置参数 功能介绍 获取ModelArts OS服务的配置参数,如网络网段,用户资源配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本,出现SSH链接故障无法访问。
训练作业中使用os.system('cd xxx')无法进入相应的文件夹? 当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时,建议使用如下方法: import os os.chdir('/home/work/user-job-dir/xxx')
按照issues中的说明,应该是环境中的库冲突了,因此在启动脚本最开始之前,添加如下代码。 import os os.system("rm /home/work/anaconda3/lib/libmkldnn.so") os.system("rm /home/work/anaconda3/lib/libmkldnn
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
处理方法 针对原因1,需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22"
file_path”。 import os current_path = os.path.dirname(os.path.realpath(__file__)) # 获得启动文件bootfile.py的路径 project_root = os.path.dirname(current_path)
suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 裸金属服务器Euler OS升级NetworkMan
env | grep RANK 在训练作业中,您可以在训练启动脚本的首行加入如下代码,把RANK_TABLE_FILE的值打印出来: 1 os.system('env | grep RANK') 父主题: 功能咨询
使用Python封装API的方式切换操作系统 切换操作系统需满足以下条件: 当前裸金属服务器状态为停止状态。 目标操作系统必须是该Region下的IMS公共镜像或者私有共享镜像。 在BMS控制台切换操作系统 获取操作系统镜像。 由华为云官方提供给客户操作系统镜像,在IMS镜像服务的共享镜像处进行接收即可,参考如下图操作。
【下线公告】华为云ModelArts算法套件下线公告 华为云ModelArts服务算法套件将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region。 下线影响 正式下线后,ModelArts Notebook中将不会预置算法套件
Turbo”,在“文件系统”中选择SFS Turbo实例名称,并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前,自动将存储位置中的文件目录挂载到训练容器中指定路径。 图2 设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Turbo,文件系统支持重复挂载
重新发送。 import os os.environ['PS_VERBOSE'] = '2' os.environ['PS_RESEND'] = '1' 其中,“os.environ['PS_VERBOSE'] = '2'”为打印所有的通信信息。“os.environ['PS_RESEND']
原因分析 在ModelArts侧进行节点重置后,modelarts-os会向节点添加准入污点,进行节点准入,而因为集群volcano没有污点容忍,且集群内只有一个节点,导致volcano无法启动,进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动,使得污点无法被自动清理。
【下线公告】华为云ModelArts服务模型转换下线公告 华为云ModelArts服务模型转换在2024年4月30日 00:00(北京时间)正式下线。 下线范围 下线区域:华为云全部Region 下线影响 正式下线后,用户将无法再使用模型转换的功能,包括创建和删除模型转换任务、查询模型转换任务列表和详情功能。
【下线公告】华为云ModelArts服务旧版训练管理下线公告 华为云ModelArts服务旧版训练管理在2023年6月30日 00:00(北京时间)正式退市。 下线范围 下线区域:华为云全部Region 下线影响 正式下线后,用户将无法再使用旧版训练管理的功能,包括旧版训练作业、
配额管理 查询OS的配额
升级、回退、卸载os-node-agent。 导致驱动升级、故障检测、指标采集、节点运维功能异常。 高 联系华为云技术支持重装os-node-agent。 升级、回退、卸载rdma-sriov-dev-plugin。 可能影响容器内使用RDMA网卡。 高 联系华为云技术支持重装r
GPU业务迁移至昇腾训练推理 基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导