搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
推理精度测试 - AI开发平台ModelArts

b-chat-test。 eval_dataset：评测使用的评测集（枚举值），目前仅支持mmlu、ceval。 service_url：成功部署推理服务后的服务预测地址，示例：http://${docker_ip}:8080/generate。此处的${docker_ip}替换

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
推理精度测试 - AI开发平台ModelArts

1:${port}/v1/completions"；若服务部署在生产环境中，该地址由API接口公网地址与"/v1/completions"拼接而成，部署成功后的在线服务详情页中可查看API接口公网地址。图1 API接口公网地址 few_shot：开启少量样本测试后添加示例样本的个数。默认为3，取值范围为0~5整数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

envs_dirs /home/ma-user/work/envs/user_conda/ 查看现有的conda虚拟环境，此时新的虚拟环境已经能够正常显示，可以直接通过名称进行虚拟环境的切换。 # shell conda env list conda activate sfs-new-env

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
执行训练任务【新】 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图4 开启故障重启断点续训练是通过checkpoint机制实现。check

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
工作负载Pod异常 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

用户与委托对应关系每个用户必须关联委托才可以使用ModelArts，但即使委托所赋之权限不足，在API调用之初也不会报错，只有到系统具体使用到该功能时，才会发生问题。例如，用户在创建训练任务时打开了“消息通知”，该功能依赖SMN委托授权，但只有训练任务运行过程中，真正需要发送消息时，系统才会“

帮助中心 > AI开发平台ModelArts > 产品介绍
ModelArts权限管理基本概念 - AI开发平台ModelArts

用户与委托对应关系每个用户必须关联委托才可以使用ModelArts，但即使委托所赋之权限不足，在API调用之初也不会报错，只有到系统具体使用到该功能时，才会发生问题。例如，用户在创建训练任务时打开了“消息通知”，该功能依赖SMN委托授权，但只有训练任务运行过程中，真正需要发送消息时，系统才会“

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

编写好Dockerfile后，通过执行如下所示命令进行新镜像构建。 docker build -f Dockerfile . -t {新镜像} 构建成功后将新镜像上传至SWR（参考6）。在ModelArts上创建训练作业。登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
工作负载Pod异常 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

唯一ID。如下，第一组配置文件不规范将Host放到最后一行，用户要连的是下面这个Host ModelArts-Note-BmjiN实例，但SSH连到识别的是Host，错误地连到了Host ModelArts-Note-wZc6s这个实例。按ssh-config的标准写法更新配

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
查询训练作业版本详情 - AI开发平台ModelArts

请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 is_success Boolean 请求是否成功。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
执行训练任务（历史版本） - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。check

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

源排队，不能保证每次都可以得到资源执行相关操作。 DLI支持schema映射的功能，即导入的表的schema的字段名称可以不和数据集相同，但类型要保持一致。父主题：导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

CV代码包：AscendCloud-CV 算子依赖包：AscendCloud-OPP 获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的特性表1 本版本支持的特性说明分类软件包特性说明

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。表2 支持的模型列表序号支持模型支持模型参数量权重文件获取地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
advisor调优总体步骤 - AI开发平台ModelArts

图4所示。图4 基于performance advisor进行性能劣化分析完成分析后单击下图图5中view查看报告。html（图6）中显示计算维度存在高优先级的AICORE降频问题，分别为pp stage0的8号卡和pp stage3的60号卡。查看对8号卡的降频分析（图7）

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导

总条数： 818

上一页
1
...
31
32
33
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线