搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

} 图3 scheduler 如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
使用Notebook进行代码调试 - AI开发平台ModelArts

调试要点进行检查。在Notebook列表，单击实例名称，进入实例详情页，查看Notebook实例配置信息。挂载OBS并行文件系统：在Notebook实例详情页面，选择“存储配置”页签，单击“添加数据存储”，设置挂载参数。设置本地挂载目录，在“/data/”目录下输入一个文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
查询网络资源 - AI开发平台ModelArts

/v1/{project_id}/networks/{network_name} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 network_name 是 String 系统自动生成的网络名称。请求参数无响应参数

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

${pod_scheduler_name} 图3 scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

集群。配置Kubernetes的访问授权。使用任意文本编辑器创建prometheus-rbac-setup.yml，YAML文件内容如下：该YAML用于定义Prometheus要用到的角色（ClusterRole），为该角色赋予相应的访问权限。同时创建Prometheus所

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

${pod_scheduler_name} 图3 scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
分页查询团队标注任务下的样本列表 - AI开发平台ModelArts

分页列表的起始页，默认为0。 process_parameter 否 String 图像缩略设置，同OBS缩略图设置，详见OBS缩略图设置。如：image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 sample_state 否 String 样本状态。可选样本状态如下：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询服务详情 - AI开发平台ModelArts

vpc_id String 在线服务实例所在的虚拟私有云ID，服务自定义网络配置时返回。 subnet_network_id String 在线服务实例所在的子网的网络ID，服务自定义网络配置时返回。 security_group_id String 在线服务实例所在的安全组，服务自定义网络配置时返回。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
训练启动脚本说明和参数配置 - AI开发平台ModelArts

换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置，在下面的指导步骤中，会展开进行详细的解释。如果用户希望自定义参数进行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
在推理生产环境中部署推理服务 - AI开发平台ModelArts

在ModelArts控制台的AI应用模块中，将模型部署为一个AI应用。登录ModelArts控制台，单击“资产管理 > AI应用 > 创建”，开始创建AI应用。设置创建AI应用的相应参数。此处仅介绍关键参数，设置AI应用的详细参数解释请参见从OBS中选择元模型。根据需要自定义应用的名称和版本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
准备Notebook - AI开发平台ModelArts

Turbo实例，子目录挂载可选择默认不填写。如果该SFS Turbo多人共用，则推荐用户编辑“子目录挂载”，创建自己的子目录进行划分。图2 Notebook中选择弹性文件服务使用Notebook将OBS数据导入SFS Turbo 打开已创建的Notebook实例，选择Notebook的python-3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
更新网络资源 - AI开发平台ModelArts

/v1/{project_id}/networks/{network_name} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 network_name 是 String 网络资源名称。请求参数表2 请求Header参数

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
安装VS Code软件 - AI开发平台ModelArts

code_1.85.2-1705561292_amd64.deb安装。 Linux系统用户，需要在非root用户进行VS Code安装。父主题：通过VS Code远程使用Notebook实例

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
训练启动脚本说明和参数配置 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 SN 1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Cluster资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
训练数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。用户自定义执行数据处理脚本修改参数说明若用户要自定义数据处理脚本并且单独执行，同样以

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 SN 1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
使用Notebook代码样例 - AI开发平台ModelArts

ook实例。前提条件注册并登录华为云，详细操作请参见准备工作。打开Notebook实例登录“AI Gallery”。选择“资产集市 > Notebook”，进入Notebook页面，该页面展示了所有共享的Notebook实例。搜索业务所需的Notebook实例，请参见查找和收藏资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
功能咨询 - AI开发平台ModelArts
功能咨询 - AI开发平台ModelArts

旧版训练迁移至新版训练需要注意哪些问题？ ModelArts训练好后的模型如何获取？ AI引擎Scikit_Learn0.18.1的运行环境怎么设置？ TPE算法优化的超参数必须是分类特征（categorical features）吗模型可视化作业中各参数的意义？如何在ModelA

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业

总条数： 1163

上一页
1
...
34
35
36
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

查询网络资源 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

分页查询团队标注任务下的样本列表 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

更新网络资源 - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

使用Notebook代码样例 - AI开发平台ModelArts

功能咨询 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线