检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。
attribute 'main_grad' 原因分析 Qwen2-0.5B或Qwen2-1.5B模型不支持也不建议PP切分。 问题影响 训练无法进行。 处理方法 对于Qwen2-0.5B或Qwen2-1.5B模型,LoRA微调时不支持PP切分。请将切分策略PP设置为1。 父主题: Studio
用户AK-SK认证模式 本模式支持OBS管理、训练管理、模型管理、服务管理模块的鉴权。 示例代码 1 2 from modelarts.session import Session session = Session(access_key='***',secret_key='***'
CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。 处理方法 根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU: os.environ['CUDA_VISIBLE_DEVICES']
原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。 处理方法 登录“应用运维管理”控制台,在“配置管理 > Agent管理”中,选择未安装ICAgent的集群,并单击“安装ICAgent”。 图1 安装ICAgent
件夹大小,根据结果判断是否复制完毕: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True) 其中,“get_size”为获取文件或文件夹的大小。“recursive=
/home/ma-user/ws/llm_train/AscendFactory 下执行启动脚本。 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 方法一:传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 多机执行命令为:sh scripts_model
s-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Cluster-View.json 节点视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4
问题现象 创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS VPC。详情页面的“NAS
修复。 代码上传至OBS 将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。 <bucket_name>
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,若指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,若指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,若指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,若指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,若指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,若指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,若指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,若指定则为per-channel粒度量化,否则为per-tensor粒度量化。
参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workspace_id 是 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。