检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 该字段内容填为“application/json;charset=utf8。 X-Auth-Token 是 String 用户Token。
可从训练作业详情中的status.tasks字段中获取。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。
Content-Type 是 String 该字段内容填为“application/json;charset=utf8。
表1 数据源的具体字段及意义 字段名 含义 类型 描述 attr_1 年龄 Int 表示客户的年龄。 attr_2 职业 String 表示客户所从事的职业。 attr_3 婚姻情况 String 表示客户是否结婚或已离异。
调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。调用成功时无此字段。 请求示例 如下以更新名为“config”的作业参数为例。
调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 请求示例 如下以创建名为“testConfig”,描述为“This is config”的训练作业参数为例。
产品优势 ModelArts服务具有以下产品优势。 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理。 大规模分布式训练能力,加速大模型研发。 提供高性价比国产算力。 多年软硬件经验沉淀,AI场景极致优化。 加速套件,训练、推理、数据访问多维度加速。 一站式端到端生产工具链
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到
在服务启动阶段,当健康检查请求连续失败达到所填次数后,服务会进入异常状态;在服务运行阶段,当健康检查请求连续失败达到所填次数后,服务会进入告警状态。 说明: 当模型配置了健康检查,部署的服务在收到停止指令后,会延后3分钟才停止。
Notebook的自定义镜像制作方法 用户在使用ModelArts开发环境时,经常需要对开发环境进行一些改造,如安装、升级或卸载一些包。但是某些包的安装升级需要root权限,运行中的Notebook实例中无root权限,所以在Notebook实例中安装需要root权限的软件,目前在预置的开发环境镜像中是无法实现的
请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 该字段内容填为“application/json;charset=utf8。 X-Auth-Token 是 String 用户Token。
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的
表9 total_metric属性列表 参数 类型 说明 total_metric_meta JSON 预留字段。 total_reserved_data JSON 预留字段。 total_metric_values JSON 训练作业模型总测评参数指标。具体请参见表10。
该字段为None,则不导入标注信息。如果根据Manifest文件导入,可以传入一个内容为空的dict对象实现导入标注信息。
当购买了套餐包,在使用公共资源池运行任务时,将会优先抵扣套餐包的配额,超出当前套餐包的额度或使用时段,将自动转为按需收费。 关于套餐包的约束限制、资源包抵扣顺序和套餐包余量预警请参见套餐包。 购买操作如下: 登录ModelArts管理控制台。
升级Standard专属资源池驱动 场景介绍 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级
计费项:标准存储费用 假设用户于2023年4月1日创建了自动学习的图像分类项目,在运行阶段,10:00:00-10:06:00完成了数据校验,10:06:00-10:12:00完成了图像分类,11:30:00完成了服务部署,并在12:00:00停止运行在线服务。
调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。调用成功时无此字段。 job_id Long 训练作业的ID。
ModelArts Standard使用流程 本章节旨在帮助您了解ModelArts Standard的基本使用方法,帮助您快速上手ModelArts服务。 面向熟悉代码编写和调测,熟悉常见AI引擎的开发者,ModelArts不仅提供了在线代码开发环境,还提供了从数据准备、模型训练