正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
objects 特定作业类型统计信息。 表4 WorkloadStatistics 参数 参数类型 描述 type String 作业类型。可选值如下: train:训练作业 infer:推理作业 notebook:Notebook作业 total Integer 作业个数。 status
昇腾云服务6.3.905版本说明 本文档主要介绍昇腾云服务6.3.905版本配套的镜像地址、软件包获取方式和支持的特性能力。 配套的基础镜像 镜像地址 获取方式 镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud
训练作业使用MoXing拷贝数据较慢,重复打印日志 问题现象 ModelArts训练作业使用MoXing拷贝数据较慢。 重复打印日志“INFO:root:Listing OBS”。 原因分析 拷贝数据慢的可能原因如下: 直接从OBS上读数据会造成读数据变成训练的瓶颈,导致迭代缓慢。
自动学习训练作业创建失败 出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 父主题: 模型训练
用户/训练系统,将CUDA_VISIBLE_DEVICES传错了,检查CUDA_VISIBLE_DEVICES变量是否正常。 用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号,与实际选择的卡ID不匹配。 处理方法 尽量代码里不要去
更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表 查询超参搜索所有trial的结果 查询超参搜索某个trial的结果 获取超参敏感度分析结果 获取某个超参敏感度分析图像的路径
50 元/小时)。按照计算资源费用、存储费用结算,那么运行这个自动学习作业的费用计算过程如下: 计算资源费用 = 规格单价 * 计算节点个数 * 训练作业运行时长(数据校验)+ 规格单价 * 计算节点个数 * 训练作业运行时长(图像分类) + 规格单价 * 计算节点个数 * 服务运行时长
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书 安全边界
昇腾云服务6.3.906版本说明 本文档主要介绍昇腾云服务6.3.906版本配套的镜像地址、软件包获取方式和支持的特性能力。 配套的基础镜像 镜像地址 获取方式 配套关系镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
务等。 说明: 高性能计算:主要是高带宽的需求,用于共享文件存储,比如基因测序、图片渲染这些。 如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。 如高性能计算、企业核心集群应用、企业应用系统和开发测试等。 说明: 高性能计算:主要是高速率、高IOPS的需求,用
本地导入的算法有哪些格式要求? ModelArts支持导入本地开发的算法,格式要求如下: 编程语言不限。 启动文件必须选择以“.py”结尾的文件。 文件数(含文件、文件夹数量)不超过1024个。 文件总大小不超过5GB。 父主题: 功能咨询
ModelArts训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: 功能咨询
读取文件报错,如何正确读取文件 问题现象 创建训练作业如何读取“json”和“npy”文件。 训练作业如何使用cv2库读取文件。 如何在MXNet环境下使用torch包。 训练作业读取文件,出现如下报错: NotFoundError (see above for traceback):
eleases/tag/2.3.0。 处理方法 将训练代码里的参数名称“lr”改成“learning_rate”。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
String 搜索方向。 max:指定时,表示指标值越大越好; min:指定时,表示指标值越小越好。 regex String 指标正则表达式。 表15 search_params 参数 参数类型 描述 name String 超参名称。 param_type String 参数类型。
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
Cluster节点池 管理Lite Cluster资源池标签 扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动 监控Lite Cluster资源 释放Lite Cluster资源
ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite