搜索_华为云

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

com（此处需要替换成对应局点的pip源地址） pip install py-spy 查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业，一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
通过SSH工具远程使用Notebook - AI开发平台ModelArts

address)：云上开发环境Notebook实例的访问地址，即在Notebook实例详情页获取的地址。例如：dev-modelarts-cnnorth4.huaweicloud.com。 Port：云上Notebook实例的端口，即在Notebook实例详情页获取的端口号。例如：32701。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
部署在线服务 - AI开发平台ModelArts

vpc_id 否 String 在线服务实例部署的虚拟私有云ID，默认为空，此时ModelArts会为每个用户分配一个专属的VPC，用户之间隔离；如需要在服务实例中访问名下VPC内的其他服务组件，则可配置此参数为对应VPC的ID。 VPC一旦配置，不支持修改。当vpc_id与

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用PyCharm手动连接Notebook - AI开发平台ModelArts

此时可以进入debug模式，代码运行暂停在该行，且可以查看变量的值。图9 Debug模式使用debug方式调试代码的前提是本地的代码和云端的代码是完全一致的，如果不一致可能会导致在本地打断点的行和实际运行时该行的代码并不一样，会出现意想不到的错误。因此在配置云上Python Interpreter时，推荐选择Automatically

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
在VS Code中上传下载文件 - AI开发平台ModelArts

然后参考文件传输进行OBS传输操作。下载Notebook中的文件至本地在Notebook中开发的文件，可以下载至本地。在本地IDE的Project目录下的Notebook2.0工程单击右键，单击“Download...”将文件下载到本地。图2 VS Code环境下载Notebook中的文件至本地父主题：通过VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致云上挂载路径 Notebook中挂载SFS后，SFS默认在“/home/ma-user/work”路径下。在创建训练作业时，设置SFS Turbo的“云上挂载路径”为“/home/ma-user/work”，使得训练环境下SFS也在“/home/ma-user/work”路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
人工标注视频数据 - AI开发平台ModelArts

在位置，一帧对应的画面可添加多个标签。支持的标注框与“物体检测”类型一致，详细描述请参见物体检测章节的表2。图2 视频标注上一帧对应的画面标注完成后，在进度条处单击播放按钮继续播放，在需要标注处暂停，然后重复执行步骤3完成整个视频的标注。单击界面右上角的“标注列表”，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
注册API并授权给APP - AI开发平台ModelArts

注册API并授权给APP 功能介绍注册API并将API授权给APP，只有对服务有更新权限的华为云用户可以调用。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
日志提示“no socket interface found” - AI开发平台ModelArts

C、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT，因此会导致通信速度慢且不稳定，最后造成IB通信断连，偶发上述现象。原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

成本。 MaaS提供灵活的模型开发能力，同时基于昇腾云的算力底座能力，提供了若干保障客户商业应用的关键能力。保障客户系统应用大模型的成本效率，按需收费，按需扩缩的灵活成本效益资源配置方案，有效避免了资源闲置与浪费，降低了进入AI领域的门槛。架构强调高可用性，多数据中心部署确保

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
ModelArts CLI命令功能介绍 - AI开发平台ModelArts

yaml配置文件； -P表示鉴权文件中的某一组鉴权信息，默认是DEFAULT； -D表示是否开启debug模式（默认关闭），当开启debug模式后，命令的报错堆栈信息将会打印出来，否则只会打印报错信息； -h表示显示命令的帮助提示信息。命令说明表1 ma-cli支持的命令命令命令详情 configure

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
自动学习训练作业失败 - AI开发平台ModelArts

由于ModelArts会自动对数据进行一些过滤，过滤后再启动训练作业。当预处理后的数据不满足训练要求时，也会导致训练作业运行失败。对于数据集中列的过滤策略如下所示：如果某一列空缺的比例大于系统设定的阈值（0.9），此列数据在训练时将被剔除。如果某一列只有一种取值（即每一行的数据都是一样的），此列数据在训练时将被剔除。

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

ing”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
查看Lite Server服务器详情 - AI开发平台ModelArts

Lite Server服务器的名称。实例规格 Lite Server服务器的规格。 ID Lite Server服务器的ID，可用于在费用中心查询。计费模式 Lite Server服务器当前的计费模式。状态 Lite Server服务器的运行状态。虚拟私有云 Lite Serve

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
配置ModelArts委托权限 - AI开发平台ModelArts

给用户配置ModelArts委托授权，允许ModelArts服务在运行时访问OBS等依赖服务。使用华为云账号登录ModelArts管理控制台，在左侧导航栏单击“权限管理”，进入“权限管理”页面，单击“添加授权”。在弹出的“添加授权”窗口中，选择：授权对象类型：所有用户委托选择：新增委托权限配置：普通用户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ion的block大小，推荐设置为128。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：服务部署的端口。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
准备镜像环境 - AI开发平台ModelArts

购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备镜像环境 - AI开发平台ModelArts

908-xxx.zip文件，获取路径参见表1。本案例使用的是解压到子目录aigc_train->torch_npu->diffusers的所有文件，将diffusers整个目录上传到宿主机上。依赖的插件代码包、模型包和数据集存放在宿主机上的本地目录结构如下，供参考。 [root@devserver

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU）本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。使用PyTorch预置框架功能，通过mp.spawn命令启动使用自定义镜像功能通过torch.distributed.launch命令启动通过torch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 612

上一页
1
...
16
17
18
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

使用PyCharm手动连接Notebook - AI开发平台ModelArts

在VS Code中上传下载文件 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

人工标注视频数据 - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

ModelArts CLI命令功能介绍 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

配置ModelArts委托权限 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线