搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

<模型版本> --local-dir <模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
查询专属资源池列表 - AI开发平台ModelArts

allocatable_memory Integer 可使用的内存数。 cluster_id String 集群ID。 nodes ClusterNode object 集群节点配置。 allocatable_cpu_cores Float 可使用的CPU核数。 product_id String

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
删除工作空间 - AI开发平台ModelArts

称。 workspace_id 是 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
查询训练作业参数详情 - AI开发平台ModelArts

Array 训练作业可使用的存储卷。具体请参见表5。 nas_mount_path String SFS Turbo (NAS) 训练本地挂载路径。如：“/home/work/nas”。 nas_share_addr String SFS Turbo (NAS) 共享路径。如：“192.168

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
昇腾迁移快速入门案例 - AI开发平台ModelArts

10.7-aarch64-snt9b”。类型：Ascend。规格：选择snt9b资源。存储配置：云硬盘EVS。磁盘规格：按照对应的存储使用情况可选择存储大小。 SSH远程开发：如果需通过VS Code远程连接Notebook实例，可打开SSH远程开发，并选择自己的密钥对。图2

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

图1 修改区分训练作业中2个代码目录使用环境变量SAVE_PATH重新覆盖权重文件保存路径，作为最终的权重保存路径。修改代码如图2。图2 修改权重保存路径多机训练场景下，需要将CODE_DIR修改为OBS_CODE_DIR目录，则可以使用scripts/tools/sync_with_obs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备Notebook - AI开发平台ModelArts

您可以在Notebook中导入完代码之后，在Notebook运行sh scripts/install.sh命令提前下载完整代码包和安装依赖包，然后使用保存镜像功能。后续训练作业使用新保存的镜像，无需每次启动训练作业时再次下载代码包以及安装依赖包，可节约训练作业启动时间。由于训练启动命令也会执行sh scripts/install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
查询资源池列表，可通过标签、资源池状态筛选查询资源池列表 - AI开发平台ModelArts

空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id，通常提供给cbc使用。 os.modelarts/tenant

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
获取Execution列表 - AI开发平台ModelArts

objects 节点steps使用到的数据。 parameters Array of WorkflowParameter objects 节点steps使用到的参数。 policies WorkflowDagPolicies object 执行记录使用到的执行策略。表5 StepExecution

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查询Workflow Execution - AI开发平台ModelArts

objects 节点steps使用到的数据。 parameters Array of WorkflowParameter objects 节点steps使用到的参数。 policies WorkflowDagPolicies object 执行记录使用到的执行策略。表3 StepExecution

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

ET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入，由于通信网卡名称不固定，因此训练代码不应默认设置该环境变量。环境变量NCCL_IB_TIMEOUT用于控制InfiniBand Verbs超时。NCCL使用的默认值为18，取值范围是1~22。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。连接时如果报错密钥无权限，排查密钥是否为自己的密钥（可能使用了重名密钥），请更换密钥后重新连接实例。本地排查检查配置是否正确。打开config文件进行检查：Host必须放在每组配置的第一行，作为每组配置的唯一ID。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
Standard模型训练 - AI开发平台ModelArts

原因中断，也可以基于checkpoint接续训练，保障需要长时间训练的模型的稳定性和可靠性，避免重头训练耗费的时间与计算成本支持训练数据使用SFS Turbo文件系统进行数据挂载，训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中，并可被下游业务环节继续读

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
在模型广场查看模型 - AI开发平台ModelArts

Studio”进入ModelArts Studio大模型即服务平台。在ModelArts Studio左侧导航栏中，选择“模型广场”进入模型广场。选择模型，单击“立即使用”进入模型详情页。在模型详情页可以查看模型的详细介绍。模型介绍表1列举了ModelArts Studio大模型即服务平台支持的模型清单，模型详细信息请查看界面介绍。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

-> 'c:\python39\Scripts\ephemeral-port-reserve.exe.deleteme ”。原因分析用户使用权限问题导致。处理方法用户电脑切换到管理员角色，键盘快捷键（Windows+R模式）并输入cmd，进入黑色窗口，执行如下命令： python

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
更新开发环境实例信息 - AI开发平台ModelArts

排队信息，如表26所示。 user Object 用户信息，如表27所示。 repository Object Git仓库信息，如表28所示。该字段不支持使用，在调用接口时会自动返回。表6 profile字段数据结构说明参数参数类型说明 id String 配置ID。 name String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。连接时如果报错密钥无权限，排查密钥是否为自己的密钥（可能使用了重名密钥），请更换密钥后重新连接实例。本地排查检查配置是否正确。打开config文件进行检查：Host必须放在每组配置的第一行，作为每组配置的唯一ID。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

kube-system ${pod_scheduler_name} 图3 scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

process the new request 原因分析该报错是因为发送预测请求后，服务出现停止后又启动的情况。处理方法需要您检查服务使用的镜像，确定服务停止的原因，修复问题。重新创建AI应用部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
服务管理概述 - AI开发平台ModelArts

本章节以“predictor”服务为例进行说明。本章节的示例代码都是在ModelArts Notebook中实现的，如果在其它开发环境使用，需要进行Session鉴权，请参见Session鉴权。父主题：服务管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理

总条数： 1814

上一页
1
...
81
82
83
...
91
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

查询专属资源池列表 - AI开发平台ModelArts

删除工作空间 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

昇腾迁移快速入门案例 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

查询资源池列表，可通过标签、资源池状态筛选查询资源池列表 - AI开发平台ModelArts

获取Execution列表 - AI开发平台ModelArts

查询Workflow Execution - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

在模型广场查看模型 - AI开发平台ModelArts

安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

服务管理概述 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线