搜索_华为云

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

参数说明： --model：模型地址，模型格式是Huggingface的目录格式。 --tensor-parallel-size：并行卡数。 --gpu-memory-utilization：0~1之间的float，实际使用的显存是系统读取的最大显存*gpu-memory-utilization。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
推理场景介绍 - AI开发平台ModelArts

t9B资源。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。支持FP16和BF16数据类型推理。适配的CANN版本是cann_8.0.rc3。 Server驱动版本要求23.0.6。资源规格要求本文档中的模型运行环境是ModelArts Lite的Ser

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
数据准备使用流程 - AI开发平台ModelArts

数据准备使用流程 ModelArts是面向AI开发者的一站式开发平台，能够支撑开发者从数据到模型的全流程开发过程，包含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery功能，能够在市场内与其他开发者分享数据、算法、模型等。为了能帮用户快速准备大量高质量的数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
执行训练任务（推荐） - AI开发平台ModelArts

r】需指定。 micro-batch-size 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 global-batch-size

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
查询Workflow待办事项 - AI开发平台ModelArts

/v2/{project_id}/workflows/todolist 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 workspace_id

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

浏览器安装了第三方插件proxy进行了拦截，导致无法进行保存。在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。网络环境原因，是否有连接网络代理。解决方法关掉插件然后重新保存。减少文件大小。重新打开jupyter页面。请检查网络。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
使用VS Code创建并调试训练作业 - AI开发平台ModelArts

控、作业管理、代码管理等动作。本章节介绍如何使用VS Code插件创建训练作业并调试。使用VS Code插件创建训练作业并调试功能目前是白名单，需要提交工单申请开通。准备工作创建OBS桶，桶名称示例：“xxx-project”，在OBS桶里创建“data”文件夹。（建议下载OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

onfig/jobstart_hccl.json”，“/user/config/jobstart_hccl.json”配置文件生成需要一段时间，业务进程需要等待“/user/config/jobstart_hccl.json”中“status”字段为“completed”状态，才能生成卡间通信信息。如下图所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
yaml配置文件参数配置说明 - AI开发平台ModelArts

alpaca_en_demo 指定用于训练的数据集，数据集都放置在此处为identity，alpaca_en_demo表示使用了两个数据集，一个是 identity，一个是alpaca_en_demo。如选用定义数据请参考准备数据（可选） template qwen 必须修改。用于指定模板。如果设

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

5L_example_workflow.json。选择diffusion model ，如下图。如果加载的是SD3.5M_example_workflow.json，这里选择sd3.5_medium.safetensors；如果加载的是SD3.5L_example_workflow.json，这里选择sd3.5_large

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
查看Lite Server服务器详情 - AI开发平台ModelArts

链接可跳转至对应弹性裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。更新时间 Lite Server服务器的更新时间。所属订单 Lite Server服务器对应的订单，单击链接可跳转至费用中心。图2 Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
推理业务迁移评估表 - AI开发平台ModelArts

可以提前的完成POC评估，例如框架、算子支持度，以及可能的一些性能指标。 - 如果是AIGC场景的业务例如Stable Diffusion，请在上表的基础上，再提供以下信息：收集项说明实际情况（请填写）使用场景例如：业务是文生图，图生图等。业务是否需要频繁更新模型，或者需要动态加载Lora。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

TensorFlow Serving是一个灵活、高性能的机器学习模型部署系统，提供模型版本管理、服务回滚等能力。通过配置模型路径、模型端口、模型名称等参数，原生TFServing镜像可以快速启动提供服务，并支持gRPC和HTTP Restful API的访问方式。 Triton是一个高性能推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
创建ModelArts人工标注作业 - AI开发平台ModelArts

语音内容：对语音内容进行标注。语音分割：对语音进行分段标注。文本文本分类：对文本的内容按照标签进行分类处理。命名实体：针对文本中的实体片段进行标注，如“时间”、“地点”等。文本三元组：针对文本中的实体片段和实体之间的关系进行标注。视频视频标注：识别出视频中每个物体的位置及分类。目前仅支持mp4格式。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
【下线公告】华为云ModelArts服务模型转换下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告华为云ModelArts服务模型转换在2024年4月30日 00:00(北京时间)正式下线。下线范围下线区域：华为云全部Region 下线影响正式下线后，用户将无法再使用模型转换的功能，包括创建和删除模型转换任务、查询模型转换任务列表和详情功能。

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告

总条数： 1087

上一页
1
...
30
31
32
...
55
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

数据准备使用流程 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

查询Workflow待办事项 - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

创建ModelArts人工标注作业 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线