搜索_华为云

创建训练作业版本 - AI开发平台ModelArts

训练作业的版本名称。请求示例如下以创建“job_id”为10，“pre_version_id”为20的一个新版本作业为例。 POST https://endpoint/v1/{project_id}/training-jobs/10/versions/ { "job_desc":

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
管理Workflow StepExecution - AI开发平台ModelArts

Object 节点执行条件为true时的分支。 right Object 节点执行条件为false时的分支。请求示例停止step POST https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/executions/4dd

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
费用账单 - AI开发平台ModelArts
费用账单 - AI开发平台ModelArts

登录ModelArts管理控制台，选择“模型部署 > 在线服务”，在“在线服务”列表页，复制实例名称。单击服务名称进入服务详情页，在“配置更新记录”页签中，单击模型名称，进入模型详情页。在“基本信息”中，复制模型的ID。图3 获取模型ID 根据查询到的资源名称拼接账单中上报的资源名称。

帮助中心 > AI开发平台ModelArts > 计费说明
训练作业卡死检测 - AI开发平台ModelArts

d，不要使用OBS路径。问题现象4 使用pytorch中的dataloader读数据时，作业卡在读数据过程中，日志停在训练的过程中并不再更新日志。解决方案4 用dataloader读数据时，适当减小num_worker。常见案例：训练最后一个epoch卡死问题现象通过日

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Paraformer基于DevServer适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

'{print $(NF-1) " " $0}' >> aishell.scp 在torch_npu目录下制作label.txt文件： wget https://www.modelscope.cn/datasets/modelscope/speech_asr_aishell1_testset

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
NPU日志收集上传 - AI开发平台ModelArts

{} to obs bucket {}".format(log_tar, obs_bucket)) obs_url = "https://%s.obs.%s.myhuaweicloud.com/%s/%s" % (obs_bucket, self.region_id,

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
准备推理环境 - AI开发平台ModelArts

/AscendCloud/AscendCloud-LLM/llm_inference/ascend_vllm/Dockfile中。内容如下： git clone https://gitee.com/ascend/vision.git vision_npu cd vision_npu git checkout

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

若无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build --build-arg "https_proxy=http://xxx.xxx.xxx.xxx" --build-arg "http_proxy=http://xxx.xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
创建节点池 - AI开发平台ModelArts

error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例创建节点池。 POST https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodepools { "kind"

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

SWR授权管理详情可参考授权管理。如果给子账号的SWR授权不是SWR Admin权限，则需要继续配置SWR组织权限。测试用户权限。由于权限配置需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
查询资源池 - AI开发平台ModelArts

error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例查询资源池详情。 GET https://{endpoint}/v2/{project_id}/pools/{pool_name} { } 响应示例状态码：200 OK。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
删除资源池 - AI开发平台ModelArts

error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例删除资源池。 DELETE https://{endpoint}/v2/{project_id}/pools/{pool_name} { } 响应示例状态码：200 OK。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
部署推理服务 - AI开发平台ModelArts

16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。如果不指定，则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重，建议不指定dtype，使用开源权重默认的dtype。 --block-size：kv-cache

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
部署推理服务 - AI开发平台ModelArts

16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。如果不指定，则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重，建议不指定dtype，使用开源权重默认的dtype。 --block-size：kv-cache

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

stable_diffusers_train.sh。 bash stable_diffusers_train.sh Step4 下载模型和数据集数据集下载地址：https://huggingface.co/datasets/lambdalabs/pokemon-blip-captions。启动脚本前的两

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
查询资源池列表 - AI开发平台ModelArts

Creating：创建中 Upgrading：升级中 Running：运行中 Abnormal：不正常请求示例查询资源池列表。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例状态码：200 OK。 { "kind"

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

batch中不同部分的数据。网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。每个进程前向传播并各自计算梯度。模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。各GPU更新模型参数。具体流程图如下：图1 多机多卡数据并行训练代码改造点引入多进程启动机制：初始化进程

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

safetensors 以上4个权重文件全部上传到宿主机工作目录${work_dir}/下。下载lora训练所需模型权重 FLUX.1-dev下载链接：https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main 下载后全部上传到宿主机

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
查询Workflow Execution - AI开发平台ModelArts

参数参数类型描述 use_cache Boolean 是否使用缓存。请求示例查询Workflow Execution详情 GET https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/executions/fa4

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

${container_name} bash Step4 下载原始模型包从HuggingFace官网下载moondream2模型包到本地，下载地址：https://huggingface.co/vikhyatk/moondream2/tree/2024-03-06。在宿主机上创建一个空目录/

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理

总条数： 820

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建训练作业版本 - AI开发平台ModelArts

管理Workflow StepExecution - AI开发平台ModelArts

费用账单 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

Paraformer基于DevServer适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

创建节点池 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

删除资源池 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

查询资源池列表 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

查询Workflow Execution - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线