搜索_华为云

创建训练作业 - AI开发平台ModelArts

时出现。 wait 否 Boolean 是否等待训练作业结束，默认为False。 job_name 否 String 训练作业名称。 show_log 否 Boolean 作业提交成功后，是否输出训练作业的日志，默认为False。 dataset_id 否 String 训练作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
执行训练任务 - AI开发平台ModelArts

ZeRO-3-Offload，配置以下参数 deepspeed: examples/deepspeed/ds_z3_offload_config.json 否，默认选用Accelerate加速深度学习训练框架，注释掉deepspeed参数。是否开启NPU FlashAttention融合算子，具体约

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

cipherText sh /usr/bin/tf_serving_entrypoint.sh 修改模型默认路径，支持ModelArts推理模型动态加载。 Dockerfile中执行如下命令修改默认的模型路径。 ENV MODEL_BASE_PATH /home/mind ENV MODEL_NAME

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 问题现象在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4503。原因分析及处理方法服务预测报错ModelArts.4503有多种场景，常见场景如下：通信出错请求报错：{"

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
分离部署推理服务 - AI开发平台ModelArts

件，`merge`模式表示合并global rank_table文件。 --save-dir：保存生成的rank_table文件的根目录，默认为当前目录。 --api-server：仅在`gen`模式有效，可选输入，当存在该输入时，表示分离部署的服务入口在该机器。注意，在多台机器

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

e文件，merge模式表示合并global rank_table文件。 --save-dir：保存生成的rank_table文件的根目录，默认为当前目录。 --api-server：仅在`gen`模式有效，可选输入，当存在该输入时，表示分离部署的服务入口在该机器。注意，在多台机器

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
查询事件列表 - AI开发平台ModelArts

事件所属资源类型。可选值为pools，表示资源池。 name 是 String 事件所属资源名称。 limit 否 Integer 单页查询最大数量，该值为空或者0时默认返回500条记录，单页最大允许查询500条记录。 continue 否 String 分页查询的上一页标记，内容为UUID字符串，查询第一页时为空。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
模型的自定义镜像制作流程 - AI开发平台ModelArts

为保证日志内容可以正常显示，日志信息需要打印到标准输出。镜像启动入口如果需要部署批量服务，镜像的启动入口文件需要为“/home/run.sh”，采用CMD设置默认启动路径，例如Dockerfile配置如下： CMD ["sh", "/home/run.sh"] 镜像依赖组件如果需要部署批量服务，镜

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

迁移评估推理迁移包括模型迁移、业务迁移、精度性能调优等环节，是否能满足最终的迁移效果需要进行系统的评估。如果您仅需要了解迁移过程，可以先按照本文档的指导进行操作并熟悉迁移流程。如果您有实际的项目需要迁移，建议填写下方的推理业务迁移评估表，并将该调研表提供给华为云技术支持人员进行迁移评估，以确保迁移项目能顺利实施。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

stage FROM nvidia/cuda:11.1.1-runtime-ubuntu18.04 AS builder # 基础容器镜像的默认用户已经是 root # USER root # 复制 Miniconda3 (python 3.7.13) 安装文件到基础容器镜像中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

stage FROM nvidia/cuda:11.1.1-runtime-ubuntu18.04 AS builder # 基础容器镜像的默认用户已经是 root # USER root # 复制 Miniconda3 (python 3.7.13) 安装文件到基础容器镜像中的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
执行训练任务 - AI开发平台ModelArts

ZeRO-3-Offload，配置以下参数 deepspeed: examples/deepspeed/ds_z3_offload_config.json 否，默认选用Accelerate加速深度学习训练框架，注释掉deepspeed参数。是否开启NPU FlashAttention融合算子，具体约

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
执行训练任务 - AI开发平台ModelArts

ZeRO-3-Offload，配置以下参数 deepspeed: examples/deepspeed/ds_z3_offload_config.json 否，默认选用Accelerate加速深度学习训练框架，注释掉deepspeed参数。是否开启NPU FlashAttention融合算子，具体约

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
获取训练作业事件列表 - AI开发平台ModelArts

描述 offset 否 Integer 数据条目偏移量。 limit 否 Integer 指定每一页返回的最大条目数，取值范围[1,100]，默认为50。 order 否 String instance order start_time 否 String 开始时间，需要与结束时间一起传入。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
准备镜像环境 - AI开发平台ModelArts

r/ws 宿主机代码和数据目录 #例如： chmod -R 777 /home/ma-user/ws 通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker exec -it ${container_name} bash 使用ma-user用户安装依赖包。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT OBS 默认必须填写。表示代码根据OBS存储方式运行。 MODEL_NAME llama2-13b 输入选择训练的模型名称。 RUN_TYPE pretrain

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

pod -A 进入容器，{pod_name}替换为您的pod名字（get pod中显示的名字），{namespace}替换为您的命名空间（默认为default）。 kubectl exec -it {pod_name} bash -n {namespace} 激活conda模式。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备镜像环境 - AI开发平台ModelArts

r/ws 宿主机代码和数据目录 #例如： chmod -R 777 /home/ma-user/ws 通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker exec -it ${container_name} bash 使用ma-user用户安装依赖包。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
注册API并授权给APP - AI开发平台ModelArts

Apps objects app列表。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。表4 Apps 参数是否必选参数类型描述 app_id 否 String APP的编号，可通过查询APP列表获取。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
LoRA微调训练 - AI开发平台ModelArts

单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT OBS 默认必须填写。表示代码根据OBS存储方式运行。 MODEL_NAME llama2-13b 输入选择训练的模型名称。 RUN_TYPE lora

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）

总条数： 946

上一页
1
...
41
42
43
...
48
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建训练作业 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

查询事件列表 - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

获取训练作业事件列表 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线