检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置plog日志是否在屏幕上显示,1表示默认设置在屏幕上显示日志。 ASCEND_GLOBAL_EVENT_ENABLE=1 # 设置事件级别 不开启Event日志级别为0;开启Event日志级别为1。 ma-pre-start脚本在与训练启动文件同级的目录下放置,命名为ma-pre-start.sh
准备镜像 准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、断点续训及性能查看。 微调训练 SFT全参微调 介绍如何进行SFT全参微调。 LoRA微调训练 介绍如何进行LoRA微调训练。 父主题: 主流开源大模型基于DevServer适配PyTorch
资源池 创建资源池失败 Standard资源池节点故障定位 资源池推理服务一直初始化中如何解决 专属资源池关联SFS Turbo显示异常
其他故障 Notebook中无法打开“checkpoints”文件夹 创建新版Notebook无法使用已购买的专属资源池,如何解决? 在Notebook中使用tensorboard命令打开日志文件报错Permission denied 父主题: 开发环境
Lite Cluster Cluster资源池如何进行NCCl Test?
常见问题 MindSpore Lite问题定位指南 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
在Notebook中使用自定义镜像常见问题 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? 父主题: Standard Notebook
配置IAM权限 使用华为云主账号创建一个开发者用户组user_group,将开发者账号加入用户组user_group中。具体操作请参见Step1 创建用户组并加入用户。 创建自定义策略。 使用华为云主账号登录控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入IAM服务。
用户项目ID,获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 category 否 String 存储类型。可选值为OBS。 mount_path 否 String 在Notebook实例中挂载的路径,必须在Notebook的/data/的子目录下。
种导入方式,需要将导入的数据或Manifest文件提前存储至OBS目录中。 本地上传:将本地数据直接通过Internet上传至OBS指定目录后,再导入数据集。 表格型数据来源 表格数据集支持从5种数据源导入数据,分别为对象存储服务(OBS)、数据仓库服务(DWS)、数据湖探索服务
dSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
设置告警通知,单击“立即创建”。 “告警方式”:选择“直接告警” “行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则。 “告警恢复通知”:开启开关 图4 设置告警通知 先在SMN创建一个主题,用于配置告
dSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
dSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
CUDA和CUDNN run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装 如何保证训练和调试时文件路径保持一致 父主题: 专属资源池训练
准备数据 自动学习的每个项目对数据有哪些要求? 创建预测分析自动学习项目时,对训练数据有什么要求? 使用从OBS选择的数据创建表格数据集如何处理Schema信息? 物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? 父主题: Standard自动学习
图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载” 图3 选择SFS Turbo 作业日志选择
导致驱动升级、故障检测、指标采集、节点运维功能异常。 高 联系华为云技术支持重装os-node-agent。 升级、回退、卸载rdma-sriov-dev-plugin。 可能影响容器内使用RDMA网卡。 高 联系华为云技术支持重装rdma-sriov-dev-plugin。 父主题:
表55 SSHResp 参数 参数类型 描述 key_pair_names Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 task_urls Array of TaskUrls objects SSH连接地址信息。 表56
当前数据导出后存储的OBS路径。 “输出路径”:表示新数据集的输出路径,即新数据集在完成标注后输出的路径。“输出路径”不能与“保存路径”为同一路径,且“输出路径”不能是“保存路径”的子目录。 图1 导出新数据集 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。当导出