检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Loss对齐结果 在排查完精度偏差来源之后发现,Loss最大绝对偏差减少为0.0003,Loss结果对齐。 需要注意训练引入随机性的目的是为了增加结果的鲁棒性,理论上不会对训练模型的收敛与否造成影响。 此处做随机性固定主要的目的是为了训练结果可完全复现,从而实现NPU和标杆的精度对齐。
JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题
JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题
性能调优 Profiling数据采集 使用Advisor工具分析生成调优建议 调优前后性能对比 父主题: Dit模型PyTorch迁移与精度性能调优
方案,帮助用户使能大模型业务。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.907版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。
方案,帮助用户使能大模型业务。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.906版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。
容的情况,例如transformers包,导致import的时候出现了错误。 用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。 处理方法 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查
重新发送。 import os os.environ['PS_VERBOSE'] = '2' os.environ['PS_RESEND'] = '1' 其中,“os.environ['PS_VERBOSE'] = '2'”为打印所有的通信信息。“os.environ['PS_RESEND']
方案,帮助用户使能大模型业务。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.909版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。
方案,帮助用户使能大模型业务。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 推理部署使用的服务框架是vLLM(官网地址:https://github.com/vllm-project/vllm/tree/v0.3.2,版本:v0
如果超过最大递归深度,建议您在启动文件中增大递归调用深度,具体操作如下: import sys sys.setrecursionlimit(1000000) 父主题: 业务代码问题
JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题
长训Loss比对结果 在单卡环境下,执行一个Epoch训练任务,GPU和NPU训练叠加效果如下: 上图中的红色曲线为GPU Loss折线图,蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下,Loss总体的绝对偏差大约为0.08181。 父主题: 精度对齐
Profiling数据采集 在train.py的main()函数Step迭代处添加配置,添加位置如下图所示: 此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。 更多信息,请参见Ascend PyTorch
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
此问题有两种解决方法: 方法1:使用常用框架自行编码开发模型,支持“多边形”标注的数据集。 方法2:修改数据集,使用矩形标注。然后再启动训练作业。 父主题: 业务代码问题
创建诊断任务 本文介绍如何创建Notebook并执行性能诊断任务。 操作步骤 创建Notebook实例。 在ModelArts控制台创建一个Notebook实例,选择要使用的AI框架,创建Notebook时可以选择任意镜像。具体参见创建Notebook实例。 创建成功后,Note
查看诊断报告 Advisor分析profiling会输出html和xlsx两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据,如集群计算、通信和下发的耗时,可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序,从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。
get_variable”。 处理方法 请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。 父主题: 业务代码问题
JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题