搜索_华为云

模型NPU卡数取值表 - AI开发平台ModelArts

模型NPU卡数取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推表1 模型NPU卡数取值表支持模型支持模型参数量文本序列长度训练类型 Zero并行规格与节点数 llama3 70B cutoff_len=4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

800训练服务器的网卡配置问题机头网卡配置是什么？有以下两类网卡：四个2*100GE网卡，为RoCE网卡，插在NPU板。一个4*25GE/10GE，为Hi1822网卡，插在主板上的。 ifconfig能看到的网卡信息吗能看到主板上的网卡信息，即VPC分配的私有IP。若要看

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
查询AI应用详情 - AI开发平台ModelArts

ken的值）。响应参数状态码： 200 表3 响应Body参数参数参数类型描述 model_version String 模型版本。 source_job_version String 来源训练作业的版本。 source_location String 模型所在的OBS路径或SWR镜像的模板地址。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

用户制作的自定义镜像，在本地执行docker run启动，无法正常运行；用户自行安装了Jupyterlab服务导致冲突的，需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径，删除并且卸载镜像中的Jupyterlab服务；用户自己业务占用了开发环境官方的8888、

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
部署在线服务时，自定义预测脚本python依赖包出现冲突，导致运行出错 - AI开发平台ModelArts

部署在线服务时，自定义预测脚本python依赖包出现冲突，导致运行出错导入模型时，需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中，推荐采用相对导入方式（Python import）导入自定义包。如果ModelArts推理框架代码内部存在同名包，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

来源训练作业的版本，模型是从训练作业产生的可填写，用于溯源；如模型是从第三方元模型导入，则为空，默认值为空。 source_type 否 String 模型来源的类型，当前仅可取值auto，用于区分通过自动学习部署过来的模型（不提供模型下载功能）；用户通过训练作业部署的模型不设置此值。默认值为空。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
设置无条件自动重启 - AI开发平台ModelArts

设置无条件自动重启背景信息训练过程中可能会碰到预期外的情况导致训练失败，且无法及时重启训练作业，导致训练周期长，而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询可视化作业详情 - AI开发平台ModelArts

resource_id String 可视化作业的计费资源ID。 job_id Long 可视化作业的ID。 job_desc String 可视化作业的具体描述。 duration Long 可视化作业的运行时长，单位为毫秒。 create_time Long 可视化作业的创建时间，时间戳格式。 train_url

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
Standard资源池 - AI开发平台ModelArts

1个节点的专属资源池，能否部署多个服务？专属资源池购买后，中途扩容了一个节点，如何计费？共享池和专属池的区别是什么？如何通过ssh登录专属资源池节点？训练任务的排队逻辑是什么？专属资源池下的在线服务停止后，启动新的在线服务，提示资源不足不同实例的资源池安装的cuda和驱动版本号分别是什么？

帮助中心 > AI开发平台ModelArts > 常见问题
训练作业如何调用shell脚本，是否可以执行.sh文件？ - AI开发平台ModelArts

/bucket-name/code/test.sh”。在本地创建“.py”文件，例如“test.py”。由于后台会自动将代码目录下载至容器的“/home/work/user-job-dir/”目录下，因此您可以在启动文件“test.py”中通过如下方式调用“.sh”文件： import

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

timed out”提示，不显示详细的构建日志。处理方法预先准备需要编译下载的依赖包，减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装，需确保wheel包与模型文件放在同一目录。优化模型代码，提高构建模型镜像的编译效率。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
查询Workflow待办事项 - AI开发平台ModelArts

），并且以英文开头的名称。 execution_id String 工作流执行ID。 step_name String 节点名称。 step_title String 节点的Title。 status String 状态。请求示例查看Workflow工作流的待办事项。 GET

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
模型管理 - AI开发平台ModelArts
模型管理 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？导入模型提示该账号受限或者没有操作权限用户创建模型时构建镜像或导入文件失败创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志通过OBS创建模型时，构建日志中提示pip下载包失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
创建网络 - AI开发平台ModelArts
创建网络 - AI开发平台ModelArts

列单击“启动IPv6”，如图3 打通VPC前，需要保证ModelArts网络和您的VPC网络都已开启IPv6，IPv6才会生效。若是打通VPC后，才开启ModelArts网络的IPv6或VPC网络的IPv6，此时需要重新打通VPC及子网，IPv6才会生效。图2 创建网络图3 启动IPv6

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
代码运行故障 - AI开发平台ModelArts

kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？如何处理使用opencv.imshow造成的内核崩溃？使用Windows下生成的文本文件时报错找不到路径？创建Notebook文件后，右上角的Kernel状态为“No Kernel”如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
在线服务 - AI开发平台ModelArts
在线服务 - AI开发平台ModelArts

I接口不变？在线服务的API接口组成规则是什么？在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的在线服务处于运行中状态时，如何填写推理请求的request header和request body 作为调用发起方的客户端无法访问已经获取到的推理请求地址服务部署失败，报错ModelArts

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线
代码运行常见错误 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？开发环境提示空间不足，如何解决？如何处理使用opencv.imshow造成的内核崩溃？使用Windows下生成的文本文件时报错找不到路径？ JupyterLab中文件保存失败，如何解决？

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
无法导入模块 - AI开发平台ModelArts

xxx”的报错，可以判断是环境中没有包含用户依赖的python包。处理方法训练作业导入模块时日志出现前两条报错信息，处理方法如下：首先保证被导入的module中有“__init__.py”存在，创建“module_dir”的“__init__.py”，如原因分析中的结构所示。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用Workflow实现低代码AI开发 - AI开发平台ModelArts

使用Workflow实现低代码AI开发什么是Workflow 运行第一条Workflow 管理Workflow 开发第一条Workflow 开发Workflow命令参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
开发环境管理 - AI开发平台ModelArts

查询Notebook实例详情更新Notebook实例删除Notebook实例通过运行的实例保存成容器镜像查询Notebook支持的有效规格列表查询Notebook支持的可切换规格列表查询运行中的Notebook可用时长 Notebook时长续约启动Notebook实例停止Notebook实例

 帮助中心 > AI开发平台ModelArts > API参考

总条数： 1838

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型NPU卡数取值表 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

查询AI应用详情 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

部署在线服务时，自定义预测脚本python依赖包出现冲突，导致运行出错 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

查询可视化作业详情 - AI开发平台ModelArts

Standard资源池 - AI开发平台ModelArts

训练作业如何调用shell脚本，是否可以执行.sh文件？ - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

查询Workflow待办事项 - AI开发平台ModelArts

模型管理 - AI开发平台ModelArts

创建网络 - AI开发平台ModelArts

代码运行故障 - AI开发平台ModelArts

在线服务 - AI开发平台ModelArts

代码运行常见错误 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

使用Workflow实现低代码AI开发 - AI开发平台ModelArts

开发环境管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线