搜索_华为云

显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表1进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
配额与限制 - AI开发平台ModelArts

Cluster或Lite Server时，所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等等资源会超出华为云默认提供的资源配额，因此需要申请扩大配额。具体配额项如下。表1 ModelArts Lite涉及的资源配额服务资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量（MB）

帮助中心 > AI开发平台ModelArts > 产品介绍
预训练任务 - AI开发平台ModelArts

Llama2-70B建议为4机32卡训练。多机启动以 Llama2-70B 为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。xxx-Ascend请根据实际目录替换。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
Lite Cluster高危操作一览表 - AI开发平台ModelArts

Lite Cluster高危操作一览表当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
查询服务更新日志 - AI开发平台ModelArts

operation String 操作类型，取值： deploy：部署 delete：删除 node_id String 边缘节点ID。在IEF上创建边缘节点后可得到。请求示例 GET https://{endpoint}/v1/{project_id}/services/{service_id}/logs

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

real-time代表在线服务，将模型部署为一个Web Service，并且提供在线的测试UI与监控能力，服务一直保持运行。 batch为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。 edge表示边缘服务，通过华为云智能边缘平台，在边缘节点将模型部署为一个Web Service，需提前在IEF（智能边缘服务）创建好节点。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建数据集 - AI开发平台ModelArts

data_sources=None, work_path=None, **kwargs) 根据数据类型创建数据集，用户可以在相同的数据集上创建不同类型的标注任务，如在图像数据集上创建图像分类、物体检测等标注任务。 create_dataset(session,dataset_name=None, data_type=None

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
配置Lite Cluster存储 - AI开发平台ModelArts

Pod删除后，存储不会清理。使用主机路径 OBS 适用于训练数据集的存储。对象存储。常用OBS SDK进行样本数据下载。存储量大，但是离节点比较远，直接训练速度会比较慢，通常会先将数据拉取到本地cache，然后再进行训练任务。静态挂载动态挂载 SFS Turbo 适用于海量小文件业务场景。提供posix协议的文件系统；

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

一个新的Notebook，使用更高规格的资源池，比如专属资源池来运行此训练代码。已经创建成功的Notebook不支持选用更高规格的资源规格进行扩容。父主题：代码运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
更新服务配置 - AI开发平台ModelArts

nodes 否 Array of strings edge服务类型可选。边缘节点ID数组，节点ID为IEF（智能边缘平台）的边缘节点ID，在IEF上创建边缘节点后可得到。 mapping_rule 否 Object batch服务类型可选。输入参数与csv数据的映射关系，仅当mappin

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用Notebook代码样例 - AI开发平台ModelArts

ModelArts”，跳转到ModelArts控制台并直接进入Notebook实例的JupyterLab页面。参考使用JupyterLab在JupyterLab页面进行开发调试。父主题：订阅使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

一个新的Notebook，使用更高规格的资源池，比如专属资源池来运行此训练代码。已经创建成功的Notebook不支持选用更高规格的资源规格进行扩容。父主题：代码运行常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 代码运行常见错误
模型包规范介绍 - AI开发平台ModelArts

customize_service.py依赖的其他文件可以直接放model目录下，需要采用绝对路径方式访问。绝对路径获取请参考绝对路径如何获取。 ModelArts针对多种引擎提供了样例及其示例代码，您可以参考样例编写您的配置文件和推理代码，详情请参见ModelArts样例列

 帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 模型包规范
AIGC工具tailor使用指导 - AI开发平台ModelArts

固定shape模型转换可以不填，动态模型转换必填。 --output_path 指定结果输出路径。 string 否默认为当前目录下。 - --aoe 是否在转换时进行AOE优化。 bool 否 False AOE优化可以提升模型性能，但不是一定有提升，需要注意开启AOE，会导致模型转换耗时极大延长。 --accuracy

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
制作自定义镜像用于推理 - AI开发平台ModelArts

AI应用的自定义镜像制作流程在Notebook中通过镜像保存功能制作自定义镜像用于推理在Notebook中通过Dockerfile从0制作自定义镜像用于推理在ECS中通过Dockerfile从0制作自定义镜像用于推理父主题：制作自定义镜像用于ModelArts Standard

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
模型包结构介绍 - AI开发平台ModelArts

customize_service.py依赖的其他文件可以直接放model目录下，需要采用绝对路径方式访问。绝对路径获取请参考绝对路径如何获取。 ModelArts针对多种引擎提供了样例及其示例代码，您可以参考样例编写您的配置文件和推理代码，详情请参见ModelArts样例列

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
Pyspark - AI开发平台ModelArts
Pyspark - AI开发平台ModelArts

dense([0.0, 1.2, -0.5]))], ["label", "features"]) # 创建训练实例，此处使用逻辑回归算法进行训练 # Create a LogisticRegression instance. This instance is an Estimator

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 自定义脚本代码示例

总条数： 1373

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

使用Notebook代码样例 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

模型包规范介绍 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

制作自定义镜像用于推理 - AI开发平台ModelArts

模型包结构介绍 - AI开发平台ModelArts

Pyspark - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线