搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

场景三：环境预检测成功并进入用户业务阶段，硬件检测出现故障并且用户业务非正常退出，系统隔离所有故障节点并重新下发训练作业。图3 业务失败&硬件故障场景四：环境预检测成功并进入用户业务阶段，硬件无故障，当用户业务异常时系统以失败状态结束作业。图4 业务失败&硬件正常隔离故障节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
推理部署使用场景 - AI开发平台ModelArts

进行版本化管理，并构建为可运行的模型。部署服务：模型构建完成后，根据您的业务场景，选择将模型部署成对应的服务类型。将模型部署为实时推理作业将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。将模型部署为批量推理服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
AI开发基本流程介绍 - AI开发平台ModelArts

部联系和业务规律，为商业目的提供决策参考。训练模型的结果通常是一个或多个机器学习或深度学习模型，模型可以应用到新的数据中，得到预测、评价等结果。业界主流的AI引擎有TensorFlow、PyTorch、MindSpore等，大量的开发者基于主流AI引擎，开发并训练其业务所需的模型。

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
使用Notebook代码样例 - AI开发平台ModelArts

登录“AI Gallery”。选择“资产集市 > Notebook”，进入Notebook页面，该页面展示了所有共享的Notebook实例。搜索业务所需的Notebook实例，请参见查找和收藏资产。单击目标Notebook实例进入详情页面。在详情页面可以查看Notebook实例的“描述”、“限制”和“版本”等信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
修改训练作业优先级 - AI开发平台ModelArts

一些任务是低优先级，可能是跑一些测试、也可能是跑一些简单的不重要的实验。在这类场景下，当有高优先级任务的时候，需要能比低优先级任务更快进入排队队列。在资源使用高峰期，用户可以通过提供或降低训练作业的优先级，来动态调节作业的执行顺序，保障关键业务的及时运行。约束限制仅使用新版

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

该指标用于统计测量对象的CPU使用率。百分比（Percent） 0～100% 连续2个周期原始值 > 95% 建议排查是否符合业务资源使用预期，如果业务无问题，无需处理。 CPU内核占用量 ma_container_cpu_used_core 该指标用于统计测量对象已经使用的CPU核个数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
自定义镜像使用场景 - AI开发平台ModelArts

自定义镜像使用场景在AI业务开发以及运行的过程中，一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题，在ModelArts的AI开发最佳实践中，通过容器镜像的方式将运行环境进行固化，以这种方式不仅能够进行依赖管理，而且可以方便的完成工作环境切换

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
Notebook Cache盘告警上报 - AI开发平台ModelArts

Notebook Cache盘告警上报创建Notebook时，可以根据业务数据量的大小选择CPU、GPU或者Ascend资源，对GPU或Ascend类型的资源，ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。当前开发环境的Cache盘使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
扩缩容模型服务实例数 - AI开发平台ModelArts

扩缩容模型服务实例数在使用大型模型进行推理时，其业务需求会呈现出明显的峰谷波动。因此，模型服务必须具备灵活的扩缩容能力，以适应不同时间段内的用户负载变化，确保服务的高可用性和资源的高效利用。 ModelArts Studio大模型即服务平台支持手动扩缩容模型服务的实例数，该操作不会影响部署服务的正常运行。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
调用MaaS部署的模型服务 - AI开发平台ModelArts

调用MaaS部署的模型服务在ModelArts Studio大模型即服务平台部署成功的模型服务支持在其他业务环境中调用。约束限制只有“状态”是“运行中”的模型服务才支持被调用。步骤1：获取API Key 在调用MaaS部署的模型服务时，需要填写API Key用于接口的鉴权认证。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？创建Notebook时，可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
ModelArts控制台为什么能看到创建失败被删除的专属资源池？ - AI开发平台ModelArts

查询到资源池。如果需要创建专属资源池，建议等待5min后再创建，且不要使用已创建过的专属资源池名称来命名新建的专属资源池。如果做UI自动化测试，建议用例用随机串替代。父主题： Standard专属资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
责任共担 - AI开发平台ModelArts
责任共担 - AI开发平台ModelArts

责任共担华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击，华为云在遵从法律法规业界标准的基础上，以安全生态圈为护城河，依托华为独有的软硬件优势，构建面向不同区域和行业的完善云服务安全保障体系。安全性是华为云与您的共同责任，如图1所示。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。图1 任务示意图操作步骤拉取镜像。本测试镜像为bert_pretrain_mindspore:v1，已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
配置Lite Server存储 - AI开发平台ModelArts

S Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储，还具备高可靠和高可用的特点，支持根据业务需要弹性扩容，且性能随容量增加而提升，可广泛应用于多种业务场景。在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通，因此保证SFS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动场景介绍当Lite Cluster资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
使用MaaS部署模型服务 - AI开发平台ModelArts

使用MaaS部署模型服务在ModelArts Studio大模型即服务平台可以将模型部署为服务，便于在“模型体验”或其他业务环境中可以调用。约束限制部署模型服务时，ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度。模型Qwen-14B默认是204

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linux内核模块，它允许支持P2P(Peer-to-Peer)的NVIDIA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
推理场景介绍 - AI开发平台ModelArts

部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.907版本，请参考软件配套版本获取配套版本的软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）

总条数： 676

上一页
1
...
10
11
12
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

使用Notebook代码样例 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

扩缩容模型服务实例数 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

ModelArts控制台为什么能看到创建失败被删除的专属资源池？ - AI开发平台ModelArts

责任共担 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线