检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改6和10中的framework_type参数值即可,例如:MindSpore框架,此处framework_type=Ascend-Powered-Engine。 Session初始化。
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
在弹出的“访问授权”窗口中,授权对象类型选“所有用户”,委托选择选“新增委托”,权限配置选择“普通用户”,并勾选“我已经详细阅读并同意《ModelArts服务声明》”,然后单击“创建”。 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 步骤二:创建训练数据集 单
或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以app_key和app_secret保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_APP_KEY和HUAWEICLOUD_APP_SECRET。
{python_file_parameter}”。需要调用通过启动脚本run_train.sh进行变量的初始化,如AK/SK。run_train.sh后跟python是保证python文件能在已经初始化的变量环境下执行,即使用run_train.sh去启动python。 表3 data_source
Flow"...... 原因分析 当模型名称包含下划线时,下划线涉及转义处理。 处理方法 需要在请求中增加exact_match参数,且参数值设置为true,确保model_name返回值正确。 父主题: 模型管理
否,则联系技术支持排查节点状态。 建议与总结 环境变量NCCL_SOCKET_IFNAME用于指定通信的网卡名称。“NCCL_SOCKET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入,由于通信网卡名称不固定,因此训练代码不应默认设置该环境变量。 环境变量NCCL_IB_TIMEOUT用于控制InfiniBand
原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时,则需要手动设置NCCL_SOCKET_IFNAME环境变量。 处理方法 针对原因1,需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ[
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练? ModelArts会帮用户生成RANK_TABLE_FILE文件,可通过环境变量查看文件位置。 在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env | grep RANK
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明
gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为开启NPU FlashAttention融合算子,上述参数值仅供参考,请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。
gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为开启NPU FlashAttention融合算子,上述参数值仅供参考,请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT
): v1训练作业环境变量迁移v2说明: v1的DLS_TASK_NUMBER环境变量,可以使用v2的MA_NUM_HOSTS环境变量替换,即选择的训练节点数。 v1的DLS_TASK_INDEX环境变量,当前可以使用v2的VC_TASK_INDEX环境变量替换,下一步使用MA_
gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为未开启NPU FlashAttention融合算子,上述参数值仅供参考,请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。
对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):可通过表1表格中output_dir参数值路径下的train_results.j
对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):可通过表1表格中output_dir参数值路径下的train_results.j
4次,然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch(warmup),由于网络的参数是随机初始化的,如果一开始就采用较大的学习率会出现数值不稳定的问题,这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。 原因分析 Tensorflo
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT