搜索_华为云

场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
设置训练故障优雅退出 - AI开发平台ModelArts

使用场景随着模型规模和数据集的急剧增长，需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时，会遇到集群中某个芯片、某台服务器故障，导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复，并可以在上一次训练中断的基础上继续训练，而不用从头开始。约束限制表1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

service [Unit] Description=buildkitd After=network.target [Service] ExecStart=/usr/local/buildkit/bin/buildkitd [Install] WantedBy=multi-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

况的原因可能有如下几种：模型中存在大量的类似于Pad或者Strided_Slice等算子，其在CPU和Ascend上的实现方法存在差异（硬件结构不同），后者在运算此类算子时涉及到数组的重排，性能较差；模型的部分算子在昇腾上不支持，或者存在Transpose操作，会导致模型切分

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
Qwen-VL基于DevServer适配Pytorch NPU的推理指导(6.3.906) - AI开发平台ModelArts

、支持中文开放域定位、细粒度识别和理解等特点。本文档主要介绍如何利用训练框架PyTorch_npu + 华为自研Ascend Snt9B硬件，完成Qwen-VL推理。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
ModelArts支持使用ECS创建专属资源池吗？ - AI开发平台ModelArts

ModelArts支持使用ECS创建专属资源池吗？不支持。创建资源池时，只能选择界面提供的“未售罄”节点规格进行创建。专属资源池的节点规格后台是对应的ECS资源，但是无法使用账号下购买的ECS，作为ModelArts专属资源池。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
Lite Server资源管理 - AI开发平台ModelArts

Lite Server资源管理查看Lite Server服务器详情启动或停止Lite Server服务器同步Lite Server服务器状态切换Lite Server服务器操作系统监控Lite Server资源 NPU日志收集上传释放Lite Server资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
下载数据 - AI开发平台ModelArts
下载数据 - AI开发平台ModelArts

“版本”和“评论”等信息。在详情页面单击“下载”。弹出“选择云服务区域”，选择区域后单击“确定”进入下载详情页面。根据数据集下载至OBS还是ModelArts数据集列表，填写不同配置信息： ModelArts数据管理模块在重构升级中，对未使用过数据管理的用户不可见。建议新用户选择将数据集下载至OBS使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
SDXL WebUI基于DevServer适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

on上的DevServer资源和Ascend Snt9B单机单卡。获取软件获取插件代码包ascendcloud-aigc-6.3.902-*.tar.gz文件。获取路径：Support网站。如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。 ascendcloud-aigc-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测该案例是使用华为云一站式AI开发平台ModelArts的新版“自动学习”功能，基于华为云AI开发者社区AI Gallery中的数据集资产，让零AI基础的开发者完成“物体检测”的AI模型的训练和部署。依据开发者提供的标注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍对于普通企业来说，大模型开发不仅需要强大的算力，还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台（后续简称为MaaS服务）作为一个面向客户的大模型服务化平台，提供简单易用的模型开发工具链，支

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

service [Unit] Description=buildkitd After=network.target [Service] ExecStart=/usr/local/buildkit/bin/buildkitd [Install] WantedBy=multi-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
AI Gallery简介 - AI开发平台ModelArts

Gallery。订阅或购买主要是获取AI资产的使用配额和使用权，支持在配额定义的约束下，有限地使用AI资产。使用AI资产时，可能需要消耗硬件资源，硬件资源费用将根据实际使用情况，由华为云ModelArts等管理控制台向使用方收取。已发布的AI资产，如果不需要在资产列表中展示该资产，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
Standard资源池节点故障定位 - AI开发平台ModelArts

Failed。 A050102 GPU 其他 nvidia-smi返回信息中包含ERR。通过nvidia-smi -a查询到ERR!，通常为硬件问题，如电源风扇等问题。 A050103 GPU 其他 nvidia-smi执行错误，超时或者不存在。执行nvidia-smi退出码非0。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
部署推理服务 - AI开发平台ModelArts

地址{image_url}获取请参见表2。 docker pull {image_url} Step3 上传代码包和权重文件上传安装依赖软件推理代码AscendCloud-3rdLLM-xxx.zip和算子包AscendCloud-OPP-xxx.zip到容器中，包获取路径请参见表1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
训练作业性能降低 - AI开发平台ModelArts

使用ModelArts平台训练算法训练耗时增加。原因分析可能存在如下原因：平台上的代码经过修改优化、训练参数有过变更。训练的GPU硬件工作出现异常。处理方法请您对作业代码进行排查分析，确认是否对训练代码和参数进行过修改。检查资源分配情况（cpu/mem/gpu/sn

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
推理精度测试 - AI开发平台ModelArts

第三方依赖 ├── service_predict.py # 发送请求的服务上传精度测试代码到推理容器中。如果在Step5 进入容器安装推理依赖软件步骤中已经上传过AscendCloud-3rdLLM-x.x.x.zip并解压，无需重复执行。进入benchmark_eval目录下，执行如下命令安装性能测试的关依赖。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
管理AI Gallery模型 - AI开发平台ModelArts

本生成”之外的类型，则被定义为自定义模型。自定义模型必须要满足自定义模型规范，才支持使用AI Gallery工具链服务。硬件资源选择支持运行该模型的硬件类型。最低可运行规格设置能够运行该模型的最低计算规格。在AI Gallery工具链服务中使用该模型时，只能选取等同或高于该规格的算力资源进行任务下发。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

dockerfile文件，需要去掉模型文件目录下存在dockerfile文件。图2 构建日志：dockerfile文件目录有问题 pip软件包版本不匹配，需要修改为日志中打印的存在的版本。图3 pip版本不匹配构建日志中出现报错：“exec /usr/bin/sh: exec

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
实时推理的部署及使用流程 - AI开发平台ModelArts

协议：使用WebSocket协议的方式访问在线服务：WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。使用Server-Sent

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业

总条数： 967

上一页
1
...
16
17
18
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

场景介绍 - AI开发平台ModelArts

设置训练故障优雅退出 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导(6.3.906) - AI开发平台ModelArts

ModelArts支持使用ECS创建专属资源池吗？ - AI开发平台ModelArts

Lite Server资源管理 - AI开发平台ModelArts

下载数据 - AI开发平台ModelArts

SDXL WebUI基于DevServer适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

管理AI Gallery模型 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

实时推理的部署及使用流程 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线