检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
build -f Dockerfile . -t {新镜像} 构建成功后将新镜像上传至SWR(参考6)。 在ModelArts上创建训练作业。 登录ModelArts管理控制台。 在左侧导航栏中,选择“模型训练 > 训练作业”进入训练作业列表。 单击“创建训练作业”,进入创建训练作业
1 text text 前提条件 在“我的模型”页面存在已创建成功的模型。 已准备好训练数据集,并存放于OBS桶中,OBS桶必须和MaaS服务在同一个Region下。 当需要永久保存日志时,需要准备好存放日志的OBS路径,OBS桶必须和MaaS服务在同一个Region下。 创建调优作业
info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器
handler-name参数说明 数据集预处理中 --handler-name 都会传递参数,用于构建实际处理数据的handler对象,并根据handler对象对数据集进行解析。文件路径在:ModelLink/modellink/data/data_handler.py。 基类BaseDatasetHandler解析
修复。 代码上传至OBS 将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。 <bucket_name>
Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错,“Unable to connect to endpoint”。 处理方法 对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorFlow对ckpt和
直接高速写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储,从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts Standard模型训练提供便捷的作业管理能力,提升用户模型训练的开发效率
基于音频修改 在标注作业详情页面,单击“已标注”页签,然后在音频列表中选中待修改的音频(选择一个或多个)。在右侧标签信息区域中对标签进行修改。 修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 删除标签:在“选中文件
方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制
方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制
l.json文件,在等待status字段的值等于completed之后,将模板二格式jobstart_hccl.json文件转换为模板一格式的jobstart_hccl.json文件。 转换后的jobstart_hccl.json文件格式(模板一)示例: { "server_count":
Operator Dynamic Shape Issues 下图展示了低优先级的动态shape问题,在NPU上动态shape可能导致频繁的算子编译从而影响训练性能,可以按照html中的提示在训练脚本开头加上如下红框中的两行代码(分布式训练请确保分布式训练的每个进程都可以使能这两行代码)。
只能在“全部”页签下启动自动分组任务或查看任务历史。 在弹出的“自动分组”对话框中,填写参数信息,然后单击“确定”。 “分组数”:填写2~200之间的整数,指将图片分为多少组。 “结果处理方式”:“更新属性到当前样本中”,或者“保存到对象存储服务(OBS)”。 “属性名称”:当选择“更新属性到当前样本中”时,需输入一个属性名称。
文件型数据集支持从两种数据源导入数据:“OBS”和“本地上传”。导入后,导入目录下的数据会复制至数据集的数据源路径下。 OBS:又分为从OBS目录或从Manifest文件两种导入方式,需要将导入的数据或Manifest文件提前存储至OBS目录中。 本地上传:将本地数据直接通过Internet上传至OBS指定目录后,再导入数据集。
placeholder_format 支持的format格式数据,当前支持obs、flavor、train_flavor、swr、pacific。 否 str delay 参数是否运行时输入,默认为“False”,在工作流启动运行前进行配置。设置为“True”,则在使用的相应节点运行时卡点配置。
path="/obs-gaia-test/data/table/table1/", with_column_header=True) 参数说明 表2 请求参数 参数 是否必选 参数类型 描述 path 是 String 导入的OBS路径或Manifest路径。 导
日志提示“Please set the train_url to an empty obs directory” 问题现象 日志提示“Please set the train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果选择训练输出路径不是空目录,会出现该报错。
grafana/grafana-oss 在BMS页面打开Grafana所在节点的安全组配置,添加入方向规则,允许外部访问3000、9090端口: 在浏览器地址栏输入xx.xx.xx.xx:3000,登录Grafana,默认账号密码为:admin/admin。在配置管理页面,添加数据源,类型选择Prometheus。