检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Turbo,以便能够通过Notebook访问SFS Turbo服务。随后,通过Notebook将OBS中的数据上传至SFS Turbo,并对存储在SFS Turbo中的数据执行编辑操作。 创建Notebook 创建开发环境Notebook实例,具体操作步骤请参考创建Notebook实例。
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 离线训练安装包准备说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.910)
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 离线训练安装包准备说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.911)
标注物体检测数据 物体检测之前,首先需考虑如何设计标签,标签设计需要对应所检测图片的明显特征,并且选择的标签比较容易识别(画面主体物与背景区分度较高),每个标签就是对所检测图片期望识别的全部结果。物体的标签设计完成之后,基于设计好的标签准备该图片的数据,每种需识别出的标签,建议应
在Notebook中使用自定义镜像常见问题 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? 父主题: Standard Notebook
问题现象 AI Gallery中的YOLOv5算法,训练结束后没有显示模型评估结果。 原因分析 未标注的图片过多,导致没有模型评估结果。 处理方法 对所有训练数据进行标注。 父主题: 预置算法运行故障
is killed by signal: Killed BP。 原因分析 由于batch size过大,导致Dataloader进程退出。 处理方法 请调小batch size的数值。 父主题: 业务代码问题
incompatible. Please install mmcv>=1.3.1, <=1.5.0。 原因分析 MMCV的依赖与PyTorch版本不匹配。 处理方法 可参考链接的内容,根据PyTorch和CUDA版本安装对应版本的MMCV。 父主题: 预置算法运行故障
Turbo在同一个网段的ECS,用ECS去挂载SFS Turbo,如果挂载失败,则表示SFS Turbo异常。 是,联系SFS服务的技术支持处理。 否,联系ModelArts的技术支持处理。 父主题: 专属资源池创建训练作业
查看训练作业资源占用情况 约束限制 训练作业的资源占用情况系统会自动保存30天,过期会被清除。 如何查看训练作业资源使用详情 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单
5 6 7 from modelarts.session import Session # 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以password保存在环境变量中来实现身份验
CUDA和CUDNN run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装 如何保证训练和调试时文件路径保持一致 父主题: 专属资源池训练
常见问题 MindSpore Lite问题定位指南 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
7.6(PyTorch自带,无需关心) pytorch version : 1.X.X-cu102 CUDA Compatibility如何使用? 当CUDA 10.2与低版本GPU驱动(440.33以下)配合使用时,可能会出现兼容问题,此时需要使用CUDA Compatibi
本案例介绍如何将Notebook的Conda环境迁移到SFS磁盘上。 使用ModelArts VSCode插件调试训练ResNet50图像分类模型 MindSpore VS Code Toolkit工具 目标检测 本案例以Ascend Model Zoo为例,介绍如何通过VS Code插件及ModelArts
depth exceeded in __instancecheck__ 原因分析 递归深度超过了Python默认的递归深度,导致训练失败。 处理方法 如果超过最大递归深度,建议您在启动文件中增大递归调用深度,具体操作如下: import sys sys.setrecursionlimit(1000000)
_postprocess(self, data) 后处理方法,在推理请求完成后调用,用于将模型输出转换为API接口输出。 用户可以选择重写preprocess和postprocess方法,以实现API输入数据的预处理和推理输出结果的后处理。 重写模型父类的初始化方法init可能导致模型“运行异常”。
upper_bound String 超参上界。 discrete_points_num String 连续型超参离散化取值个数。 discrete_values Array of strings 离散型超参的取值列表。 表14 algo_configs 参数 参数类型 描述 name String
to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果选择训练输出路径不是空目录,会出现该报错。 处理方法 对于不支持断点训练的模型,请您将模型的输出路径train_url设置为空目录。 父主题: 预置算法运行故障
其他故障 Notebook中无法打开“checkpoints”文件夹 创建新版Notebook无法使用已购买的专属资源池,如何解决? 在Notebook中使用tensorboard命令打开日志文件报错Permission denied 父主题: 开发环境