搜索_华为云

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

CES云监控授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况，并设置监控告警。 CES FullAccess 可选 SMN消息服务授予子用户使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
Standard Workflow - AI开发平台ModelArts

型训练成本支持数据标注、数据处理、模型开发/训练、模型评估、应用开发、应用评估等步骤自动协调工作流步骤之间的所有依赖项，提供运行记录、监控、持续运行等功能针对工作流开发，Workflow提供流水线需要覆盖的功能以及功能需要的参数描述，供用户使用SDK对步骤以及步骤之间的关系进行定义

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
推理部署使用场景 - AI开发平台ModelArts

部署服务：模型构建完成后，根据您的业务场景，选择将模型部署成对应的服务类型。将模型部署为实时推理作业将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。将模型部署为批量推理服务批量服务可对批量数据进行推理，完成数据处理后自动停止。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
查看训练作业日志 - AI开发平台ModelArts

odelArts界面上看不到。普通日志说明普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts Standard平台日志。表1 普通日志类型日志类型说明训练进程日志用户训练代码的标准输出。 pip-requirement.txt安装日志

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
业务代码问题 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败超过最大递归深度导致训练作业失败使用预置算法训练时，训练失败，报“bndbox”错误训练作业进程异常退出训练作业进程被kill 父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
使用CodeLab免费体验Notebook - AI开发平台ModelArts

在右侧区域，单击切换规格，修改规格类型。图3 切换规格资源监控。在使用过程中，如果想了解资源使用情况，可在右侧区域选择“Resource Monitor”，展示“CPU使用率”和“内存使用率”。图4 资源监控分享副本到AI Gallery。单击右上角的，将修改后的Notebook样例保存分享到AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
应用场景 - AI开发平台ModelArts
应用场景 - AI开发平台ModelArts

提供端到端AI生产线能力和高性能AI算力，提升大模型推理效率，为矿山行业带来更高效、智能、安全和可持续的生产方案。铁路实现列车智能调度、设备故障预测、铁路线路安全监控等功能。医疗报告智能解读、互联网检验以及居民全周期健康管理等领域的应用，为用户提供更加多元化、智慧化、精益化的服务。

帮助中心 > AI开发平台ModelArts > 产品介绍
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业，一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况 py-spy dump --pid 12345 父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
服务管理权限 - AI开发平台ModelArts

atus (request body携带status信息) modelarts:nodeservice:action - √ √ 查询服务监控信息 GET /v1/{project_id}/services/{service_id}/monitor modelarts:service:getMonitor

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

从内核中卸载nvidia相关的所有进程。在安装nvidia驱动时，必须把内核中加载nvidia相关的进程卸载，否则会失败。具体操作请参考GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML。若遇到加载到内核的nvidia进程循环依赖，

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

可以访问云服务，保证租户之间的相互隔离。提供可靠的备份和灾难恢复机制，以确保数据不会因为硬件故障或自然灾害等原因而丢失。提供透明的安全监控和事件响应服务，及时的安全更新和漏洞修补。而云服务客户则需要执行以下任务：将数据和应用程序加密，以保护数据的机密性和完整性。确保模型

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

Tool接口参考中的指导。 NPU上的网卡在哪里可以看到，会健康检查吗？ 8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
环境配置故障 - AI开发平台ModelArts

ModuleNotFoundError: No module named 'numba' JupyterLab中文件保存失败，如何解决？用户结束kernelgateway进程后报错Server Connection Error，如何恢复？父主题：开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
使用MaaS部署模型服务 - AI开发平台ModelArts

单击服务名称，进入部署模型服务详情页面，可以查看服务信息。 “详情”：可以查看服务的基本信息，包括服务、模型、资源等设置信息。 “监控”：可以查看服务监控和资源监控信息。 “算力利用率”表示每分钟NPU的平均使用率，当请求率较低时，使用率会显示为0。 “事件”：可以查看服务的事件信息。事

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
Lite Cluster资源配置流程 - AI开发平台ModelArts

nd/ 图14 训练进程查看卡占用情况，如图所示，此时0号卡被占用，说明进程正常启动。 npu-smi info //查看卡信息图15 查看卡信息训练任务大概会运行两小时左右，训练完成后自动停止。若想停止训练任务，可执行下述命令关闭进程，查询进程后显示已无运行中python进程。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

查询服务详情，根据服务ID查询服务详情。启动停止边缘节点服务实例启动停止边缘节点服务实例。更新服务配置更新模型服务。查询服务监控信息查询服务监控信息。查询服务更新日志查询实时服务更新日志。查询服务事件日志查询服务事件日志，包含服务的操作记录及部署过程中的关键动作、部署失败原因。

帮助中心 > AI开发平台ModelArts > API参考
Lite Cluster高危操作一览表 - AI开发平台ModelArts

回退版本、重装插件。升级、卸载volcano插件。可能导致作业调度异常。中回退版本、重装插件。卸载ICAgent插件。可能导致日志、监控功能异常。中回退版本、重装插件。 helm 升级、回退、卸载os-node-agent。导致驱动升级、故障检测、指标采集、节点运维功能异常。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

npu-smi info 图7 查看卡信息若想停止训练任务，可执行下述命令关闭进程，查询进程后显示已无运行中python进程。 pkill -9 python ps -ef 图8 关闭训练进程 limit/request配置cpu和内存大小，已知单节点Snt9B机器为：8张S

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

定义镜像创建训练作业时，检查启动文件路径排查解决。可能为多个进程或者worker读写同一个文件。如果使用了SFS，则考虑是否多个节点同时写同一个文件。分析代码中是否存在多进程写同一文件的情况。建议避免作业中存在多进程，多节点并发读写同一文件的情况。检查报错的路径是否为OBS路径

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

worker_num：所有进程个数。因为一个卡起一个进程，所以也表示使用总卡数。 local_worker_num：当前节点进程个数，即当前节点使用的卡数。 master_addr：msrun组网调度进程所在节点的IP地址，单机场景无需配置。 master_port：msrun组网调度进程的端口。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码

总条数： 311

上一页
1
...
5
6
7
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

Standard Workflow - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

应用场景 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

服务管理权限 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

环境配置故障 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线