搜索_华为云

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

仅适用于GPU资源监控。前提条件裸金属服务器需要安装driver、cuda、fabric-manager软件包。步骤一：安装Docker 使用Docker官方脚本安装最新版Docker： curl https://get.docker.com | sh sudo systemctl

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
指令监督微调训练任务 - AI开发平台ModelArts

目录章节并更新dataset_info.json 文件。 Step2 修改训练yaml文件配置 LlamaFactroy配置文件为yaml文件，启动训练前需修改yaml配置文件，yaml配置文件在代码目录下的{work_dir}/llm_train/LLaMAFactory/demo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
执行微调训练任务 - AI开发平台ModelArts

目录章节并更新dataset_info.json 文件。 Step2 修改训练yaml文件配置 LlamaFactroy配置文件为Yaml文件，启动训练前需修改Yaml配置文件，Yaml配置文件在代码目录下的{work_dir}/llm_train/LLaMAFactory/demo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
执行训练任务 - AI开发平台ModelArts

说明。 bf16，配置以下参数。 bf16: true fp16，相比bf16还需配置loss scale参数，配置如下。设置fp16为True。 fp16: true 修改deepspeed的"loss_scale"参数，配置如下。修改ZeRO优化器配置文件，如ZeRO2命令如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

在ModelArts控制台的“全局配置”页面，单击“添加授权”后，系统会引导您为特定用户或所有用户进行委托配置，通常默认会创建一个名为“modelarts_agency_<用户名>_随机ID”的委托条目。在权限配置的区域，您可以选择ModelArts提供的预置配置，也可以自定义选择您所授权

 帮助中心 > AI开发平台ModelArts > 产品介绍
通过APP认证的方式访问在线服务 - AI开发平台ModelArts

在部署为在线服务时，即“部署”页面，填写部署服务相关参数时，开启支持APP认证功能。针对已部署完成的在线服务，进入在线服务管理页面，单击目标服务名称“操作”列的“修改”按钮，进入修改服务页面开启支持APP认证功能。图1 部署页面开启支持APP认证功能选择APP授权配置。从下拉列表中选择您需要

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
请求超时返回Timeout - AI开发平台ModelArts

优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。检查模型是否启动成功或者模型处理单个消息的时长。因APIG（API网关）的限制，模型单次预测的时间不能超过40S，超过后系统会默认返回Timeout错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
精度问题处理 - AI开发平台ModelArts

p16，fp32的性能较差。因此，通常只在检测到某个模型精度存在问题时，才会考虑是否使用fp32进行尝试）。使用fp32精度模式的配置文件如下：配置文件： # config.ini [ascend_context] precision_mode=enforce_fp32 # 使用fp32。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
ModelArts权限管理基本概念 - AI开发平台ModelArts

单击“添加授权”后，系统会引导您为特定用户或所有用户进行委托配置，通常默认会创建一个名为“modelarts_agency_<用户名>_随机ID”的委托条目。在权限配置的区域，您可以选择ModelArts提供的预置配置，也可以自定义选择您所授权的策略。如果这两种形态对于您的诉求均

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
依赖和委托 - AI开发平台ModelArts

obs:bucket:PutBucketCORS 必须配置。若有使用并行文件系统，则需额外配置obs:bucket:HeadBucket。从容器镜像中导入模型。 SWR SWR Admin 必须配置。SWR共享版不支持细粒度权限项，因此需要配置Admin权限。使用ModelArts Edge功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
发布Workflow到ModelArts - AI开发平台ModelArts

运行态进行配置执行（在管理控制台Workflow页面配置）。执行如下命令： workflow.release() 上述命令执行完成后，如果日志打印显示发布成功，则可前往ModelArts的Workflow页面中查看新发布的工作流，进入Workflow详情，单击“配置”进行参数配

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

训练作业参数有两种来源，包括后台自动生成的参数和用户手动输入的参数。具体获取方式如下：创建训练作业时，“输入”支持配置训练的输入参数名称（一般设置为“data_url”），以及输入数据的存储位置，“输出”支持配置训练的输出参数名称（一般设置为“train_url”），以及输出数据的存储位置。训练作业运

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

在专属资源池列表中，单击资源池“ID/名称”，进入详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS VPC。详情页面的“NAS VPC名称”和“NAS 子网ID”如果为空则证明没有开启，单击右上角配置NAS VPC即可。如果单击开启后报错，可能是由于对应的VPC已经创建了对等连接，删除对等连接即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
Notebook实例重新启动后，需要删除本地known_hosts才能连接 - AI开发平台ModelArts

Notebook实例重新启动后，需要删除本地known_hosts才能连接可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”，如下参考所示： Host

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code使用技巧

总条数： 1468

上一页
1
...
10
11
12
...
74
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

精度问题处理 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

Notebook实例重新启动后，需要删除本地known_hosts才能连接 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线