检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments 问题现象 使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments... 图1 在线服务报错 原因分析 根据报错日志分析,模型目录下
mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_lora_13b
mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training
训练作业训练失败报错:TypeError: unhashable type: ‘list’ 问题现象 使用订阅算法图像分类-EfficientNetB4进行训练报错:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多标签分类导致(即一个图片用了1个以上的标签)。
报错“Connection permission denied (publickey)”如何解决 问题现象 VS Code连接开发环境时报错“Connection permission denied (publickey). Please make sure the key file
部署在线服务出现报错No CUDA runtime is found 问题现象 部署在线服务出现报错No CUDA runtime is found,using CUDA_HOME='/usr/local/cuda'。 原因分析 从日志报错信息No CUDA runtime is
在运行finetune_ds.sh 时遇到报错 在运行finetune_ds.sh 时遇到报错 pydantic_core._pydantic_core.ValidationError: 1 validation error for DeepSpeedZeroConfig sta
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决? 问题现象 VS Code连接开发环境时报错“Bad owner or permissions on C:\Users\Administrator/
构建条件节点控制分支执行 功能介绍 主要用于执行流程的条件分支选择,可以简单的进行数值比较来控制执行流程,也可以根据节点输出的metric相关信息决定后续的执行流程。主要应用场景如下: 可以用于需要根据不同的输入值来决定后续执行流程的场景。例如:需要根据训练节点输出的精度信息来决
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed
ModelArts训练作业无法解析参数,日志报错 问题现象 ModelArts训练作业无法解析参数,遇到如下报错,导致无法正常运行: error: unrecognized arguments: --data_url=xxx://xxx/xxx error: unrecognized
在运行finetune_ds.sh 时遇到报错 在运行finetune_ds.sh 时遇到报错 pydantic_core._pydantic_core.ValidationError: 1 validation error for DeepSpeedZeroConfig sta
in/AscendSpeed 下执行启动脚本,先修改以下命令中的参数,再复制执行。 启动训练脚本可使用以下两种启动命令,二选一即可,其中区别如下: 传递参数形式:将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为:sh scripts/llama2/0_pl_sft_13b
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决? 问题现象 在Notebook里保存镜像时报错“container size %dG is greater than threshold %dG”。 原因分析
配置节点参数控制分支执行 功能介绍 支持单节点通过参数配置或者获取训练输出的metric指标信息来决定执行是否跳过,同时可以基于此能力完成对执行流程的控制。 应用场景 主要用于存在多分支选择执行的复杂场景,在每次启动执行后需要根据相关配置信息决定哪些分支需要执行,哪些分支需要跳过,