检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Map<String,ServiceAdditionalProperties> 服务级别附加属性,便于服务管理。 load_balancer_policy 否 String 只支持在线同步服务设置后端elb转发策略,枚举值:ROUND_ROBIN(加权轮询算法),LEAST_CONNE
alpaca_gpt4_data.json # 微调数据文件 注意:多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。 父主题: 准备工作
误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl 工具,注意使用的是1.7.6 arm64版本 wget https://github
镜像服务SWR FullAccess权限。 SWR OperateAccess 必选 密钥管理服务 当子账号使用ModelArts Notebook的SSH远程功能时,需要配置子账号密钥管理服务的使用权限。 KMS CMKFullAccess 可选 IEF智能边缘平台 授予子账号
连接。 更多Screen使用说明可参考Screen User's Manual。 通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题 本文指导用户通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题。 在ModelArts Standard控制台,选择“模型训练>训练作业”。
模型适配 基于MindSpore Lite的模型转换 动态shape 父主题: GPU推理业务迁移至昇腾的通用指导
误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl 工具,注意使用的是1.7.6 arm64版本 wget https://github
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
常见问题 MindSpore Lite问题定位指南 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 基于LLM模型的GPU训练业务迁移至昇腾指导 GPU训练业务迁移至昇腾的通用指导 基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导 基于advisor的昇腾训练性能自助调优指导
使用kubectl工具。 若通过内网使用kubectl工具,需要将kubectl工具安装在和集群在相同vpc下的某一台机器上。单击连接信息下kubectl后的“配置”按钮,根据界面提示使用kubectl工具。 图11 通过内网使用kubectl工具 通过公网使用kubectl工具,可以将k
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.911)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.910)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.911)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.910)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.905)
当前固定随机性操作可分为工具固定和人工固定两种。 工具固定Seed 对于网络中随机性的固定,Msprobe提供了固定Seed的方式,只需要在config.json文件中添加对应seed配置即可。 Msprobe工具提供了seed_all接口用于固定网络中的随机数。如果客户使用了工具但取用了其他
rts提供了MA-Adivisor性能自动诊断工具。用户采集性能profiling数据后,可通过该工具自动扫描profiling数据,工具分析完数据后会给出可能的性能问题点及调优建议,用户可以根据调优建议做相应的修改适配。目前该工具对CV类模型给出的调优建议较多,LLM类建议稍少
模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目名称)快速搜索过滤到相应的工作流,可节省您的时间。 登录ModelArts管理控制台,在左侧导航栏选择“开发空间>自动学习”,进入自动学习总览页面。