检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网络调整公告 ModelArts针对网络进行安全加固和优化,新的网络模式可以为用户的资源提供更好的隔离性,提升云上资源的安全。为保障您的网络安全,建议您后续使用新网络创建Standard资源池。 表1 上线局点 上线局点 上线时间 华东二 2024年10月29日 20:00 父主题:
Ant8裸金属服务器中,使用Megatron-Deepspeed框架训练GPT-2(分别进行单机单卡和单机多卡训练)。 训练完成后给出自动式生成内容,和交互式对话框模式。 背景信息 Megatron-Deepspeed Megatron-Deepspeed是一个基于PyTorch的深度学习模型训练框架。它
使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理,GPU显存没有释放;或者代码运行过程中内存溢出导致程序被清理,需要释放下显存,清理GPU,然后重新启动。为了避免进程结束引起的代码未保存,建议您每隔一段时间保存下代码输出至OBS桶或者容器
在Notebook中,如何使用昇腾多卡进行调试? 昇腾多卡训练任务是多进程多卡模式,跑几卡需要起几个python进程。昇腾底层会读取环境变量:RANK_TABLE_FILE,开发环境已经设置,用户无需关注。比如跑八卡,可以如下片段代码: export RANK_SIZE=8
使用JupyterLab在线开发和调试代码 JupyterLab是一个交互式的开发环境,可以使用它编写Notebook、操作终端、编辑MarkDown文本、打开交互模式、查看csv文件及图片等功能。可以说,JupyterLab是开发者们下一阶段更主流的开发环境。 ModelArts支持通过JupyterL
13.0-de803ac9 INFO:root:Using OBS-Python-SDK-3.1.2 原因分析 Pytorch通过spawn模式创建了多个进程,每个进程会调用多进程方式使用Mox下载数据。此时子进程会不断销毁重建,Mox也就会不断的被导入,导致打印很多Mox的版本信息。
tensorboard显示502 bad gateway 问题现象 启动tensorboard后,打开tensorboard提示502 bad gateway,或者偶现502 bad gateway。 原因分析 出现该问题的可能原因如下: 启动tensorboard对应的summ
Server服务器的名称。 规格 Lite Server服务器的规格。 ID Lite Server服务器的ID,可用于在费用中心查询。 计费模式 Lite Server服务器当前的计费模式。 状态 Lite Server服务器的运行状态。 虚拟私有云 Lite Server服务器创建时绑定的虚拟私有云,单击链接可跳转到虚拟私有云详情页。
控制台,完成权限管理配置,然后选择所需功能,直接使用即可。 ModelArts平台仅针对使用计算规格的功能才涉及计费,公共资源池全部为按需模式,根据选用规格以及作业运行时长收费。专属资源池可按需购买,也可选择包年包月购买,在运行训练作业或部署服务时,选择专属资源池,无需另外付费。
专属资源池关联SFS Turbo显示异常 问题现象 专属资源池关联SFS Turbo时显示异常,关联失败。 图1 关联异常 图2 报错提示 原因分析 ModelArts缺少SFS Turbo委托权限导致关联失败。 处理方法 需要您给ModelArts配置SFS Turbo委托权限
特权池信息数据显示均为0%如何解决? 问题现象 特权池基本信息页面数据均显示为0%(如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率)。 原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。
求部署为服务。训练类型不同,部署后的计费方式不同。 将AI应用部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体计费方式请参见ModelArts产品价格详情。部署AI应用可选择按需计费,也可根据业务类型和需求购买套餐包。 为避免出现因购买套餐
视频数据集无法显示和播放视频 若无法显示和播放视频,请检查视频格式类型,目前只支持MP4格式。 父主题: Standard数据管理
求部署为服务。训练类型不同,部署后的计费方式不同。 将AI应用部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体计费方式请参见ModelArts产品价格详情。部署AI应用可选择按需计费,也可根据业务类型和需求购买套餐包。 为避免出现因购买套餐
训练作业状态显示“审核作业初始化” 问题现象 当创建训练作业的“算法来源”选择“自定义”镜像创建训练作业时,训练作业状态显示审核作业初始化。 原因分析 自定义镜像首次运行时,需要先审核镜像,通过审核之后才可创建作业,即当前状态为审核作业初始化。 父主题: 业务代码问题
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS桶,是否具有访问权限。
创建Notebook失败,查看事件显示JupyterProcessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的
Tensorflow多节点作业下载数据到/cache显示No space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(
使用ModelArts Standard一键完成商超商品识别模型部署 ModelArts的AI Gallery中提供了大量免费的模型供用户一键部署,进行AI体验学习。 本文以“商超商品识别”模型为例,完成从AI Gallery订阅模型,到ModelArts一键部署为在线服务的免费体验过程。
0 集群网络模式:容器隧道网络|VPC 集群转发模式:iptables|ipvs 操作系统:EulerOS 2.8 架构类型:arm 集群类型:CCE Standard 集群版本:v1.23|v1.25(推荐) 集群规模:50|200|1000|2000 集群网络模式:容器隧道网络|VPC