正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
train_instance_type="modelarts.pool.visual.xlarge", # 专属池的虚拟子规格 train_instance_count=1,
customize_service.py依赖的其他文件可以直接放model目录下,需要采用绝对路径方式访问。绝对路径获取请参考绝对路径如何获取。 ModelArts针对多种引擎提供了样例及其示例代码,您可以参考样例编写您的配置文件和推理代码,详情请参见ModelArts样例列
数据源”,将OBS中的数据重新同步至ModelArts中。 检查OBS的访问权限 如果OBS桶的访问权限设置无法满足训练要求时,将会出现训练失败。请排查如下几个OBS的权限设置。 当前账号具备OBS桶的读写权限(桶ACLs) 进入OBS管理控制台,选择当前自动学习项目使用的OBS桶,单击桶名称进入概览页。
resource_requirements Array of resource_requirements objects 算法资源约束,可不设置。设置后,在算法使用于训练作业时,控制台会过滤可用的公共资源池。 advanced_config advanced_config object
图中蓝色loss_0是NPU迭代曲线,黄色loss_1是GPU的迭代曲线。 问题定位解决 使用ptdbg_ascend工具dump全网数据,dump接口设置方法具体参考PyTorch精度工具。dump完成后compare GPU和NPU结果进行分析。 dropout算子引入了随机性偏差,如下图:
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
“按节点数量”两种滚动方式。 按节点比例:每批次驱动升级的节点数量为“节点比例*资源池节点总数”。 按节点数量:每批次驱动升级的节点数量为设置的节点数量。 对于不同的升级方式,滚动升级选择节点的策略会不同: 如果升级方式为安全升级,则根据滚动节点数量选择无业务的节点,隔离节点并滚动升级。
customize_service.py依赖的其他文件可以直接放model目录下,需要采用绝对路径方式访问。绝对路径获取请参考绝对路径如何获取。 ModelArts针对多种引擎提供了样例及其示例代码,您可以参考样例编写您的配置文件和推理代码,详情请参见ModelArts样例列
必须修改。加载tokenizer与Hugging Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/w
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
“按节点数量”两种滚动方式。 按节点比例:每批次驱动升级的节点数量为“节点比例*资源池节点总数”。 按节点数量:每批次驱动升级的节点数量为设置的节点数量。 对于不同的升级方式,滚动升级选择节点的策略会不同: 如果升级方式为安全升级,则根据滚动节点数量选择无业务的节点,隔离节点并滚动升级。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model
resource_requirements 否 Array of ResourceRequirement objects 算法资源约束。可不设置。设置后,在算法使用于训练作业时,控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig
NoDiscount instance_num Integer 当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”
NoDiscount instance_num Integer 当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”
是否自动停止:为避免资源浪费,建议打开自动停止开关,根据您的实际需要,选择自动停止时间,也可以自定义自动停止的时间。 图3 选择计算节点规格 图4 设置自动停止 参数填写完毕之后,单击运行状况右边的“继续运行”,单击确认弹窗中的“确定”即可继续完成工作流的运行。 步骤五:预测分析 运行完成
是否自动停止:为了避免资源浪费,建议您打开该开关,根据您的需求,选择自动停止时间,也可以自定义自动停止的时间。 图2 选择计算节点规格 图3 设置自动停止 参数填写完毕之后,单击运行状况右边的“继续运行”,单击确认弹窗中的“确定”即可继续完成工作流的运行。 步骤7:预测分析 运行完成
指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,1000]。 page 否 Integer 指定要查询页的索引。 如果需要分页,请设置“page”参数值为“1”。 默认“page”参数值为“0”,不支持分页。 请求消息 无。 响应消息 响应参数如表3所示。 表3 响应参数
/scripts/install.sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh 若镜像使用ECS中构建新镜像和Notebook中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;