检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。
数较多。也可关闭系统默认绑核后,在业务容器中用taskset等方式进行灵活绑核。 Dropcache:开启后表示启用Linux的缓存清理功能,是一种应用性能调优手段,在大部分场景下可以提升应用性能。但是清除缓存也可能会导致容器启动失败或系统性能暂时下降(因为系统需要重新从磁盘加载
如果界面无可选规格,请联系华为云技术支持申请开通。 系统盘 系统盘和规格有关,选择支持挂载的规格才会显示此参数。可以在创建完成后在云服务器侧实现数据盘挂载或系统盘的扩容,建议取值至少100GB。 表4 镜像说明 参数名称 说明 镜像 公共镜像 常见的标准操作系统镜像,所有用户可见,包括操作系统以及预装的公共应用(
开启“节点高级配置”开关后,支持设置实例的操作系统。 存储配置 部分规格支持“存储配置”开关,该参数默认关闭。 系统盘 打开“存储配置”开关后,可以看到每个实例默认自带的系统盘的磁盘类型、大小或数量。 部分规格没有携带系统盘,在创建专属资源池时支持设置系统盘的磁盘类型和大小。 容器盘 打开
27,仅支持选择Containerd作为容器引擎。其余CCE集群版本,支持选择Containerd或Docker作为容器引擎。 修改操作系统。在“操作系统”下拉列表中指定操作系统版本。 修改驱动版本。在“驱动版本”下拉列表中指定驱动版本。 指定节点计费模式。用户增加节点数量时,可以打开“节点计费
查看Lite Server服务器详情 启动或停止Lite Server服务器 同步Lite Server服务器状态 切换Lite Server服务器操作系统 监控Lite Server资源 NPU日志收集上传 释放Lite Server资源
硬件问题:如果GPU之间的NVLINK连接存在硬件故障,那么这可能会导致带宽受限。重新安装软件后,重启系统,可能触发了某种硬件自检或修复机制,从而恢复了正常的带宽。 系统负载问题:最初测试GPU卡间带宽时,可能存在其他系统负载,如进程、服务等,这些负载会占用一部分网络带宽,从而影响NVLINK带宽的表
在创建AI应用页面,系统会自动根据上一步训练作业填写参数,参考如下说明确认关键参数。 “元模型来源”:系统自动选择“从训练中选择”。 “选择训练作业”:系统自动选择上一步创建的训练作业。 “AI引擎”:系统自动写入该模型的AI引擎,无需修改。 “推理代码”:系统自动放置推理代码到OBS输出路径,无需修改。
如何打开ModelArts开发环境的Terminal功能? 如何在Notebook中安装外部库? 如何获取本机外网IP? 如何解决“在IOS系统里打开ModelArts的Notebook,字体显示异常”的问题? Notebook有代理吗?如何关闭? 在Notebook中添加自定义IPython
对于包年/包月计费模式的资源,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券等条件返还一定金额到您的账户。详细的退订规则请参见云服务退订规则概览。 如果您已开
先切换至授权区域。 如表1所示,包括了ModelArts的所有系统策略权限。如果系统预置的ModelArts权限,不满足您的授权要求,可以创建自定义策略,可参考策略JSON格式字段介绍。 表1 ModelArts系统策略 策略名称 描述 类型 ModelArts FullAccess
modelarts/name" : "auto-pool-os", "os.modelarts/workspace.id" : "0", "os.modelarts/resource.id" : "maos-auto-pool-os-72w8d" }, "annotations"
Code开发环境中显示Notebook实例详情页,单击“连接”,系统自动启动该Notebook实例并进行远程连接。 图9 查看Notebook实例详情页 第一次连接Notebook时,系统右下角会提示需要先配置密钥文件。选择本地密钥pem文件,根据系统提示单击“OK”。 图10 配置密钥文件 单击
volumes属性列表 参数 参数类型 说明 nfs Object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体请参见表6。 host_path Object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体请参见表7。 表6
如何将开发环境Notebook A的数据复制到Notebook B中? 在Notebook中上传文件失败,如何解决? 动态挂载OBS并行文件系统成功,但是在Notebook的JupyterLab中无法看到本地挂载点 父主题: Standard Notebook
该进程一直处于"D+"状态,可能表明出现了I/O操作阻塞或其他问题,这可能导致系统死锁或其他问题。 如果想构造nvidia-smi D+进程,可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性, 如: #!/bin/bash while true; do nvidia-smi
volumes属性列表 参数 是否必选 参数类型 说明 nfs 否 Object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体说明请参见表6。 host_path 否 Object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体说明请参见表7。
object 网络资源的注释信息。 表4 NetworkMetadataLabels 参数 参数类型 描述 os.modelarts/name String 用户指定的network名称。 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作
2763 训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 系统容器异常退出 父主题: 训练作业
务类型管理页面。 在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。 当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,会有弹窗提醒。批量服务参数说明请参见将模型部署为批量推理服务。 方式二:通过服务详情页面修改服务信息