搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──AscendSpeed # 基于AscendSpeed的训练代码工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。 ${workdir}（例如/home/ma-user/ws ） |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──AscendSpeed # 基于AscendSpeed的训练代码工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。 ${workdir}（例如/home/ma-user/ws ） |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
查询专属资源池列表 - AI开发平台ModelArts

描述 total_count Integer 不分页的情况下符合查询条件的总集群数量。 count Integer 当前查询结果的集群数量，不设置offset、limit查询参数时，count与total相同。 clusters Array of Cluster objects 查询到的集群列表。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
模型配置文件编写说明 - AI开发平台ModelArts

模型运行时环境，系统默认使用python2.7。runtime可选值与model_type相关，当model_type设置为Image时，不需要设置runtime，当model_type设置为其他常用框架时，请选择您使用的引擎所对应的运行时环境。目前支持的运行时环境列表请参见推理支持的AI引擎。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
分页查询团队标注任务下的样本列表 - AI开发平台ModelArts

分页列表的起始页，默认为0。 process_parameter 否 String 图像缩略设置，同OBS缩略图设置，详见OBS缩略图设置。如：image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 sample_state 否 String 样本状态。可选样本状态如下：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询算法详情 - AI开发平台ModelArts

resource_requirements Array of resource_requirements objects 算法资源约束，可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config advanced_config object

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询样本列表 - AI开发平台ModelArts

false：不支持预览 process_parameter 否 String 图像缩略设置，同OBS缩略图设置，详见OBS缩略图设置。如：image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 sample_state 否 String 样本状态。可选样本状态如下：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
用户AK-SK认证模式 - AI开发平台ModelArts

用户AK-SK认证模式本模式支持OBS管理、训练管理、模型管理、服务管理模块的鉴权。示例代码 1 2 from modelarts.session import Session session = Session(access_key='***',secret_key='***'

帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
分离部署推理服务 - AI开发平台ModelArts

scheduler实例中NODE_PORTS=8088,8089；端口设置顺序必须与global rank table文件中各全量和增量节点顺序一致，否则会报错。 Step9 推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。通过OpenAI服务API接口启动服务使

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

scheduler实例中NODE_PORTS=8088,8089；端口设置顺序必须与global rank table文件中各全量和增量节点顺序一致，否则会报错。步骤九推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。通过OpenAI服务API接口启动服务使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

scheduler实例中NODE_PORTS=8088,8089；端口设置顺序必须与global rank table文件中各全量和增量节点顺序一致，否则会报错。步骤九推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。通过OpenAI服务API接口启动服务使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
Standard资源池功能介绍 - AI开发平台ModelArts

资源池驱动进行升级。专属资源池提供了故障节点修复的功能，可参考修复Standard专属资源池故障节点修复故障节点。专属资源池提供了动态设置作业类型的功能，可参考修改Standard专属资源池支持的作业类型更新作业类型。专属资源池提供了工作空间功能，管理员可以根据工作空间，隔

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

torch_dtype=torch.bfloat16, trust_remote_code=True, ) 3）为减少量化时间，建议将以下参数设置为512； NUM_CALIBRATION_SAMPLES = 512 执行权重量化： python deepseek_moe_w8a8_int8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

# modelLink兼容旧版本启动方式目录 |──Dockerfile 工作目录介绍详细的工作目录参考如下，根据实际要求设置。 ${workdir}（例如/home/ma-user/ws） |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
附录：训练常见问题 - AI开发平台ModelArts

问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数： vim

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

在创建训练作业页面配置环境变量“ROUTE_PLAN”，取值为“true”，具体操作请参见管理训练容器环境变量。代码示例训练作业的启动脚本示例如下。启动脚本中设置plog生成后存放在“/home/ma-user/modelarts/log/modelarts-job-{id}/worker-{ind

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
保存Notebook实例 - AI开发平台ModelArts

在Notebook列表中，对于要保存的Notebook实例，单击右侧“操作”列中的“更多 > 保存镜像”，进入“保存镜像”对话框。图1 保存镜像在保存镜像对话框中，设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。在“组织”下拉框中选择一个组织。如果没有组织，可以单击右侧的“立即创建”，创建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

在Notebook列表中，对于要保存的Notebook实例，单击右侧“操作”列中的“更多 > 保存镜像”，进入“保存镜像”对话框。图1 保存镜像在保存镜像对话框中，设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。在“组织”下拉框中选择一个组织。如果没有组织，可以单击右侧的“立即创建”，创建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
附录：训练常见问题 - AI开发平台ModelArts

问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数： vim

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数： vim

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）

总条数： 978

上一页
1
...
43
44
45
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查询专属资源池列表 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

分页查询团队标注任务下的样本列表 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

查询样本列表 - AI开发平台ModelArts

用户AK-SK认证模式 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

保存Notebook实例 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线