搜索_华为云

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

/home/ma-user/etc/ssh_host_rsa_key0 将准备好的sshd启动脚本文件上传至OBS的训练代码目录下。创建自定义镜像训练作业。 “代码目录”选择存有sshd启动脚本文件的OBS地址。 “启动命令”需要适配sshd启动脚本，如下所示： bash ${MA_JOB_DIR}/demo-code/start_sshd

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

__instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如果超过最大递归深度，建议您在启动文件中增大递归调用深度，具体操作如下： import sys sys.setrecursionlimit(1000000) 父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
自定义镜像导入模型部署上线调用API报错 - AI开发平台ModelArts

自定义镜像导入模型部署上线调用API报错部署上线调用API报错，排查项如下：确认配置文件模型的接口定义中有没有POST方法。确认配置文件里url是否有定义路径。例如：“/predictions/poetry”（默认为“/”）。确认API调用中body体中的调用路径是否拼接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

st-modelarts/ascend/code/”。 “启动命令” 镜像的Python启动命令。本文示例的启动命令为“bash ${MA_JOB_DIR}/code/run_torch_ddp_npu.sh”。其中，启动脚本的完整代码请参见代码示例。（可选）启用ranktable动态路由

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
管理批量服务生命周期 - AI开发平台ModelArts

管理批量服务生命周期启动服务您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作，“部署中”状态的服务无法启动。启动服务，当服务处于“运行中”状态后，ModelArts将开始计费。您可以通过如下方式启动服务：登录ModelArts管理控制台，在左侧菜单栏中选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
用户如何设置默认的kernel？ - AI开发平台ModelArts

在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_KERNEL_NAME=python-3.7.10 单击操作列的“更多>保存镜像”，保存成功后然后重新启动Notebook。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
管理在线服务生命周期 - AI开发平台ModelArts

管理在线服务生命周期启动服务您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作，“部署中”状态的服务无法启动。启动服务，当服务处于“运行中”状态后，ModelArts将开始计费。您可以通过如下方式启动服务：登录ModelArts管理控制台，在左侧菜单栏中选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在推理生产环境中部署推理服务 - AI开发平台ModelArts

表示BF16。如果不指定，则根据输入数据自动匹配数据类型。 --distributed-executor-backend：多卡推理启动后端，可选值为"ray"或者"mp"，其中"ray"表示使用ray进行启动多卡推理，"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

computation. 原因分析分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。处理方法请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
部署推理服务 - AI开发平台ModelArts

${node-path}：节点自定义目录，该目录下包含pod配置文件config.yaml和推理服务启动脚本run_vllm.sh，run_vllm.sh内容见Step3 创建服务启动脚本。 ${model-path}：Step1 上传权重文件中上传的模型权重路径。 Step3 创建服务启动脚本 run_vllm.sh脚本示例如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
从容器镜像中导入模型文件创建模型 - AI开发平台ModelArts

“健康检查” 用于指定模型的健康检查。仅当自定义镜像中配置了健康检查接口，才能配置“健康检查”，否则会导致模型创建失败。当前支持以下三种探针：启动探针：用于检测应用实例是否已经启动。如果提供了启动探针(startup probe)，则禁用所有其他探针，直到它成功为止。如果启动探针失败，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
部署推理服务 - AI开发平台ModelArts

${node-path}：节点自定义目录，该目录下包含pod配置文件config.yaml和推理服务启动脚本run_vllm.sh，run_vllm.sh内容见Step3 创建服务启动脚本。 ${model-path}：Step1 上传权重文件中上传的模型权重路径。 Step3 创建服务启动脚本 run_vllm.sh脚本示例如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
部署推理服务 - AI开发平台ModelArts

${node-path}：节点自定义目录，该目录下包含pod配置文件config.yaml和推理服务启动脚本run_vllm.sh，run_vllm.sh内容见Step3 创建服务启动脚本。 ${model-path}：Step1 上传权重文件中上传的模型权重路径。 Step3 创建服务启动脚本 run_vllm.sh脚本示例如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──trainer.py # 训练启动脚本 |──performance.py # 训练性能比较启动脚本 |──accuracy.py # 训练精度启动脚本 |──model/Qwen2-7B/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
在推理生产环境中部署推理服务 - AI开发平台ModelArts

在OBS桶中，创建文件夹，准备ascend_vllm代码包、模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。 ascend_vllm代码包在Step9 构建推理代码已生成。模型权重文件获取地址请参见表1。推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。处理方法可以参考官方文档，如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
在推理生产环境中部署推理服务 - AI开发平台ModelArts

缀较长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，若未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
日志文件的大小达到限制 - AI开发平台ModelArts

silently 原因分析根据报错信息，可以判断是日志文件的大小已达到限制。出现该报错之后，日志不再增加，后台将继续运行。处理方法请您在启动文件中减少无用日志输出。父主题：硬盘限制故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
执行训练任务（推荐） - AI开发平台ModelArts

根据config.yaml启动作业启动作业命令如下。首先会根据config.yaml创建pod，继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后，可通过以下命令获取所有已创建的pod信息。若pod已全部启动，则状态为：Running。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory 解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）

总条数： 1405

上一页
1
...
5
6
7
...
71
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

自定义镜像导入模型部署上线调用API报错 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

管理批量服务生命周期 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

从容器镜像中导入模型文件创建模型 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

日志文件的大小达到限制 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线