检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快
体方法可见下文说明。 资源池工作空间迁移 登录ModelArts管理控制台,选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”页面。 在资源池列表中,选择目标资源池右侧操作列的“ > 工作空间迁移”。 在弹出的“迁移专属资源池”中,选择要迁移的“目标工作空间”,单击“确定”。
OBS路径。 准备资源池 在ModelArts Studio大模型即服务平台进行模型调优、压缩或部署时,需要选择资源池。MaaS服务支持专属资源池和公共资源池。 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建一个专属资源池,然后在AI开发过
不同用户间的专属资源池物理隔离,公共资源池仅提供逻辑隔离,专属资源池的隔离性、安全性要高于公共资源池。 专属资源池用户资源独享,在资源充足的情况下,作业是不会排队的;而公共资源池使用共享资源,在任何时候都有可能排队。 专属资源池支持打通用户的网络,在该专属资源池中运行的作业可以
pool_name 是 String 资源池名称。取自资源池详情的metadata字段中的name的值。 请求参数 无 响应参数 状态码: 204 表2 响应Body参数 参数 参数类型 描述 tags Array of PoolTag objects 资源标签的列表。 表3 PoolTag
ModelArts支持使用ECS创建专属资源池吗? 不支持。创建资源池时,只能选择界面提供的“未售罄”节点规格进行创建。专属资源池的节点规格后台是对应的ECS资源,但是无法使用账号下购买的ECS,作为ModelArts专属资源池。 父主题: Standard资源池
在弹性裸金属列表中,单击的“退订”,跳转至“退订资源”页面。 根据界面提示,确认需要退订的资源,并选择退订原因。 图2 退订资源 确认退订信息无误后,勾选“我已确认……”和“资源退订后……”提示信息。 单击“退订”,再次根据界面信息确认要退订的资源。 再次单击“退订”,完成包年/包月资源的退订操作。 在费用中心退订单个实例资源
资源管理 查询OS的配置参数 查询插件模板 查询节点列表 批量删除节点 批量重启节点 查询事件列表 创建网络资源 查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表,可通过标签、资源池状态筛选查询资源池列表 查询资源池 删除资源池
描述 tags Array of PoolTag objects 资源标签的列表。 表4 PoolTag 参数 参数类型 描述 key String 资源类型的标签 values Array of strings 资源类型的标签值 状态码: 400 表5 响应Body参数 参数 参数类型
资源池 创建资源池失败 Standard资源池节点故障定位 资源池推理服务一直初始化中如何解决 专属资源池关联SFS Turbo显示异常
为什么资源充足还是在排队? 如果是公共资源池,一般是由于其他用户占用资源导致,请耐心等待或根据训练作业一直在等待中(排队)?方法降低排队时间。 如果是专属资源池,建议您进行以下排查: 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。 可通过总览页面,快
(可选)配置驱动 当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动。如果在购买资源池时,没配置自定义驱动,默认驱动不满足业务要求,可通过本章节将驱动升级到指定版本。 5 (可选)配置镜像预热 Lite Cluster资源池支持镜
查询专属资源池作业统计信息 功能介绍 查询专属资源池作业统计信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/stat
如何通过ssh登录专属资源池节点? ModelArts专属资源池不支持ssh登录节点。 父主题: Standard资源池
内存使用量。 nvidia.com/gpu String GPU资源使用量。 huawei.com/ascend-snt3 String 昇腾资源使用量。 huawei.com/ascend-snt9 String 昇腾资源使用量。 状态码: 400 表6 响应Body参数 参数 参数类型
使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注 OBS桶设置了自动加密会导致此问题,需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 父主题: Standard数据管理
专属资源池关联SFS Turbo显示异常 问题现象1 专属资源池关联SFS Turbo时显示异常,关联失败。 图1 关联异常 图2 报错提示 问题现象2 网络操作解除关联SFS Turbo后状态仍显示已关联且无报错信息,而解除关联按钮置灰不可操作。同时该网络的解除关联SFS Turbo按钮置灰不可操作。
“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 在资源池列表中,单击操作列的“ > 退订”,跳转至“退订资源”页面。 根据界面提示,确认需要退订的资源,并选择退订原因。 确认退订信息无误后,勾选“资源退订后……”提示信息。
Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String 资源规格的核数。 cpu String 资源规格CPU内存。 gpu_num
${TRAIN_URL} 把run.sh放到/opt目录,在实际启动任务的时候,使用以下命令启动任务即可: bash –x /opt/run.sh 把run.sh放到/root目录,可以在原镜像里增加一层,这一层就只是COPY这个run脚本。在基础镜像里可以一起把obsutil安装、配置好。参考如下dockerfile: