搜索_华为云

启动DevServer实例 - AI开发平台ModelArts

otebook SSH：可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String,String> 通过应用专属URL直接打开应用进入远程开发模式。 ssh_keys Array

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

端口和ws跟wss的配置是否正确。连接成功后结果如下：图5 连接成功优先验证自定义镜像提供的websocket服务的情况，不同的工具实现的websocket服务会有不同，可能出现连接建立后维持不住，可能出现请求一次后连接就中断需要重新连接的情况，ModelArts平台只保证

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

截，导致无法进行保存。在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。网络环境原因，是否有连接网络代理。解决方法关掉插件然后重新保存。减少文件大小。重新打开jupyter页面。请检查网络。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

提供了一系列的优化技术，如ZeRO内存优化、分布式训练等，可以帮助用户更好地利用多个GPU进行训练 Accelerate是一种深度学习加速框架，主要针对分布式训练场景。Accelerate的核心思想是通过模型并行和数据并行来实现分布式训练，从而提高训练速度。Accelerate提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练作业进程被kill - AI开发平台ModelArts

您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：sdxl-train:0

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
训练迁移快速入门案例 - AI开发平台ModelArts

生效，需要用户显式调用。 # torch npu初始化。 import torch_npu 调用后，前端会通过monkey-patch的方式注入到torch对象中，后端会注册NPU设备以及HCCL的参数面通信能力，这样就可以运行torch.npu相关接口。图2 torch_npu导入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
查找Notebook实例 - AI开发平台ModelArts

如果没有用户组，也可以创建一个新的用户组，并通过“用户组管理”功能添加用户，并配置授权。如果指定的子账号没有在用户组中，也可以通过“用户组管理”功能增加用户。子账号启动其他用户的SSH实例子账号可以看到所有用户的Notebook实例后，如果要通过SSH方式远程连接其他用户的Notebook实

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
更新Notebook实例 - AI开发平台ModelArts

允许远程接入的公网IP地址列表，最多5个。 service 否 String 支持的服务，枚举值如下： NOTEBOOK：可以通过https协议访问Notebook。 SSH：可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务。另外，当启动服务时的模型或者参数发生改变时，请删除

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
给子账号配置查看所有Notebook实例的权限 - AI开发平台ModelArts

如果没有用户组，也可以创建一个新的用户组，并通过“用户组管理”功能添加用户，并配置授权。如果指定的子账号没有在用户组中，也可以通过“用户组管理”功能增加用户。子账号启动其他用户的SSH实例子账号可以看到所有用户的Notebook实例后，如果要通过SSH方式远程连接其他用户的Notebook实

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
Notebook的自定义镜像制作方法 - AI开发平台ModelArts

进入ModelArts控制台，单击“镜像管理 > 注册镜像”，进入“注册镜像”页面。根据界面提示填写相关信息，然后单击“立即注册”。 “镜像源”选择构建好的镜像。可直接复制完整的SWR地址，或单击选择SWR构建好的镜像进行注册。图2 选择镜像源 “架构”和“类型”：根据自定义镜像的实际框架选择。注册后的镜像会显

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
查询用户所有DevServer实例列表 - AI开发平台ModelArts

otebook SSH：可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String,String> 通过应用专属URL直接打开应用进入远程开发模式。 ssh_keys Array

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

otebook SSH：可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String,String> 通过应用专属URL直接打开应用进入远程开发模式。 ssh_keys Array

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
ModelArts Standard资源监控概述 - AI开发平台ModelArts

Standard提供了多种监控查看方式。方式一：通过ModelArts Standard控制台查看您在可通过ModelArts控制台的总览页或各模块资源监控页签查看监控指标。具体涉及以下几个方面：通过ModelArts控制台的总览页查看，具体请参见通过ModelArts控制台查看监控指标。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
昇腾迁移快速入门案例 - AI开发平台ModelArts

选择snt9b资源。存储配置选择“云硬盘EVS”。磁盘规格按照对应的存储使用情况选择存储大小。 SSH远程开发如果需通过VS Code远程连接Notebook实例，可打开SSH远程开发，并选择自己的密钥对。在Notebook列表，单击“操作”列的“打开”，打开Notebook实例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

个节点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts 使用kubectl连接集群，详细操作请参考通过kubectl连接集群。配置Kubernetes的访问授权。使用任意文本编辑器创建prometheus-rbac-setup.yml，YAML文件内容如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

suppressed 问题现象弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务。另外，当启动服务时的模型或者参数发生改变时，请删除

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

summary可能是本地缓存，在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后，由于达到了OBS单次导入文件大小的上限，导致无法继续写入。处理方法如果在运行训练作业的过程中出现该问题，建议处理方法如下：推荐使用本地缓存的方式来解决，使用如下方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障

总条数： 1342

上一页
1
...
11
12
13
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

启动DevServer实例 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

查找Notebook实例 - AI开发平台ModelArts

更新Notebook实例 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

给子账号配置查看所有Notebook实例的权限 - AI开发平台ModelArts

Notebook的自定义镜像制作方法 - AI开发平台ModelArts

查询用户所有DevServer实例列表 - AI开发平台ModelArts

实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

昇腾迁移快速入门案例 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线