检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts标注完样本集后,如何保证退出后不再产生计费? 标注样本集本身不计费,数据集存储在OBS中,收取OBS的费用。建议您前往OBS控制台,删除存储的数据和OBS桶,即可停止收费。 父主题: 计费相关
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
训练作业的启动文件如何获取训练作业中的参数? 训练作业参数有两种来源,包括后台自动生成的参数和用户手动输入的参数。具体获取方式如下: 创建训练作业时,“输入”支持配置训练的输入参数名称(一般设置为“data_url”),以及输入数据的存储位置,“输出”支持配置训练的输出参数名称(
如果当前资源池的资源确实不够,也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容,请联系系统管理员。专属资源池扩容,可参考扩缩容资源池。 如果磁盘空间不够,可以尝试重试,使实例调度到其他节点。如果单实例仍磁盘空间不足,请联系系统管理员,更换合适的规格。 如果是大模型导入的模型部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。
部署服务如何选择计算节点规格? 部署服务时,用户需要指定节点规格进行服务部署,界面目前显示的节点规格是ModelArts根据用户的AI应用和资源池的节点规格计算得到,用户可以选择ModelArts提供的规格,也可以使用自定义规格(公共资源池不支持)。 计算节点规格主要是根据用户A
Cluster资源池如何进行NCCl Test? ModelArts提供AI诊断功能,用户可以通过NCCl Test,测试节点GPU状态,并且测试多个节点间的通信速度。 操作步骤 单击资源池名称,进入资源池详情。 单击左侧“AI组件管理 > AI诊断”。 单击“诊断”,选择“日志上传路径”和NCCL
Notebook无法执行代码,如何处理? 当Notebook出现无法执行时,您可以根据如下几种情况判断并处理。 如果只是Cell的执行过程卡死或执行时间过长,如图1中的第2个和第3个Cell,导致第4个Cell无法执行,但整个Notebook页面还有反应,其他Cell也还可以单击
Notebook无法执行代码,如何处理? 当Notebook出现无法执行时,您可以根据如下几种情况判断并处理。 如果只是Cell的执行过程卡死或执行时间过长,如图1中的第2个和第3个Cell,导致第4个Cell无法执行,但整个Notebook页面还有反应,其他Cell也还可以单击
如何打开ModelArts开发环境的Terminal功能? 登录ModelArts管理控制台,选择“开发空间>Notebook”。 创建Notebook实例,实例处于“运行中”,单击“操作”列的“打开”,进入“JupyterLab”开发页面。 选择“Files > New > T
如何删除预置镜像中不需要的工具 预置的基础镜像中存在cpp、gcc等调试/编译工具,如果您不需要使用这些工具,可以通过运行脚本删除。 创建一个run.sh脚本文件,文件中的代码内容如下。然后在容器中执行sh run.sh命令运行脚本。 #!/bin/bash delete_sniff_compiler()
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
创建Notebook实例后无法打开页面,如何处理? 如果您在创建Notebook实例之后,打开Notebook时,因报错导致无法打开页面,您可以根据以下对应的错误码来排查解决。 打开Notebook显示黑屏 Notebook打开后黑屏,由于代理问题导致,切换代理。 打开Notebook显示空白
元模型来源:选择“从容器镜像中选择” 容器镜像所在的路径:选择已制作好的自有镜像 图4 选择已制作好的自有镜像 容器调用接口:指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。 镜像复制:选填,选择是否将容器镜像中的模型镜像复制到ModelArts中。 健康检查:选填,用于指
ModelArts中创建的数据集,如何在Notebook中使用 ModelArts上创建的数据集存放在OBS中,可以将OBS中的数据下载到Notebook中使用。 Notebook中读取OBS数据方式请参见如何在Notebook中上传下载OBS文件?。 父主题: 更多功能咨询
在ModelArts创建分布式训练时如何设置NCCL环境变量? ModelArts训练平台预置了部分NCCL环境变量,如表1所示。这些环境变量建议保持默认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3,表示使用RoCE
0)的地址,设置为任务worker-0的通信域名。 master_port:在主任务(rank 0)上,用于分布式训练期间通信的端口。默认设置为18888端口。当遇到master_port冲突问题时,可通过设置MA_TORCHRUN_MASTER_PORT环境变量值修改端口配置。 rdzv_id:Rendez
服务部署、启动、升级和修改时,容器健康检查失败如何处理? 问题现象 服务部署、启动、升级和修改时,容器健康检查失败。 原因分析 容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 模型健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。
在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
否,请执行步骤3。 如能访问OBS,单击右上方登录的用户,在下拉列表中选择“我的凭证”。请根据“如何管理访问密钥”操作指导,确认当前AK/SK是否是当前账号创建的AK/SK。 是,请联系提交工单处理。 否,请根据“如何管理访问密钥”操作指导更换为当前账号的AK/SK。 请确认当前账号是否欠费。 是
如何用ModelArts训练基于结构化数据的模型? 针对一般用户,ModelArts提供自动学习的预测分析场景来完成结构化数据的模型训练。 针对高阶用户,ModelArts在开发环境提供创建Notebook进行代码开发的功能,在训练作业提供创建大数据量训练任务的功能;用户在开发、