检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
VS Code背景配置为豆沙绿 在VS Code的配置文件settings.json中添加如下参数 "workbench.colorTheme": "Atom One Light", "workbench.colorCustomizations": { "[Atom One
问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析 出现该问题的可能原因如下: multiprocessing启动方式有误。 处理方法 可以参考官方文档,如下:
--distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。 推理启动脚本必须名为run_vllm.sh,不可修改其他名称。
yaml文件。 config.yaml文件用于配置pod,本示例中使用sleep命令启动pod,便于进入pod调试。您也可以修改command为对应的任务启动命令(如“python inference.py”),任务会在启动容器后执行。 config.yaml内容如下: apiVersion:
使用自定义镜像创建训练作业时,在代码目录下载完成后,镜像的启动命令会被自动执行。启动命令的填写规范如下: 如果训练启动脚本用的是py文件,例如train.py,运行命令可以写为python ${MA_JOB_DIR}/demo-code/train.py。 如果训练启动脚本用的是sh文件,例如main.sh,运行命令可以写为bash
异常 自定义镜像不支持指定依赖。 Customize model does not support dependencies. 自定义镜像导入不支持配置运行时依赖,在构建镜像的dockerfile文件中安装pip依赖包。FAQ 异常 非自定义镜像不支持指定swr_location字段。
${base_image}为基础镜像地址。 ${image_name}为推理镜像名称,可自行指定。 运行完后,会生成推理所需镜像。 Step5 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。docker启动失败会有对应的error提示,启动成功会有对应的docker id生成,并且不会报错。 docker
图4 选择已制作好的自有镜像 容器调用接口:指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。 镜像复制:选填,选择是否将容器镜像中的模型镜像复制到ModelArts中。 健康检查:选填,用于指定模型的健康检查。仅当自定义镜像中配置了健康检查
自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理? 模型使用CV2包部署在线服务报错
ASCEND_GLOBAL_LOG_LEVEL=1 export ASCEND_SLOG_PRINT_TO_STDOUT=1 模型转换时指定AOE调优配置文件。 #shell # 模型转换时指定AOE调优配置文件并将调优日志输出到aoe_unet.log mkdir aoe_output converter_lite
${base_image}为基础镜像地址。 ${image_name}为推理镜像名称,可自行指定。 运行完后,会生成推理所需镜像。 步骤五 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。docker启动失败会有对应的error提示,启动成功会有对应的docker id生成,并且不会报错。 docker
export_new_dataset_work_path String 导出新数据集的工作目录。 ratio_sample_usage Boolean 指定切分比例后,是否按指定比例随机分配训练-验证集。可选值如下: true:主动随机分配训练集-验证集 false:不主动随机分配训练集-验证集(默认值)
实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。 父主题: VS Code连接开发环境失败故障处理
ModelArts提供的Notebook实例是以ma-user启动的,用户进入实例后,工作目录默认是“/home/ma-user/work”。 创建实例,“/home/ma-user/work”目录下挂载的数据,在实例停止、重新启动后依然保留,其他目录下的内容会还原。 父主题: CodeLab
failed.'或者'Port forwarding is disabled.”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no"
|──demo.yaml # 样例yaml配置文件 |──demo.sh # 指令微调启动shell脚本 |──intall.sh
|──demo.yaml # 样例yaml配置文件 |──demo.sh # 指令微调启动shell脚本 |──intall.sh
|──demo.yaml # 样例yaml配置文件 |──demo.sh # 指令微调启动shell脚本 |──intall.sh
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len