搜索_华为云

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

开发者的新特性需求。基于服务演进，ModelArts团队已于2021年上线新版训练，力求解决存在的历史问题，并为新特性提供高性能、高易用、可扩展、可演进的底座，给用户提供更好的AI训练体验，打造易用、高效的AI平台。下线旧版训练管理对现有用户的使用是否有影响？正在使用的训练作

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
获取用户名和用户ID - AI开发平台ModelArts

获取用户名和用户ID 在调用接口的时候，部分请求中需要填入用户名（user name）和用户ID（user_id）。获取步骤如下：注册并登录管理控制台。鼠标移动至用户名，在下拉列表中单击“我的凭证”。在“API凭证”页面，查看“IAM用户名”和“IAM用户ID”。图1 获取用户名和ID

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
更新可视化作业描述 - AI开发平台ModelArts

job_desc 是 String 对可视化作业的描述，字符串的长度限制为[0，256]。响应消息响应参数如表3所示。表3 响应参数参数参数类型说明 is_success Boolean 请求是否成功。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

800训练服务器的网卡配置问题机头网卡配置是什么？有以下两类网卡：四个2*100GE网卡，为RoCE网卡，插在NPU板。一个4*25GE/10GE，为Hi1822网卡，插在主板上的。 ifconfig能看到的网卡信息吗能看到主板上的网卡信息，即VPC分配的私有IP。若要看

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用基础镜像 - AI开发平台ModelArts

创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：准备镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
查询作业引擎规格 - AI开发平台ModelArts

MindSpore-GPU engine_id Long 训练作业的引擎ID。 engine_name String 训练作业的引擎名称。 engine_version String 训练作业使用的引擎版本。请求示例如下以查看训练作业的资源引擎规格为例。 GET https://en

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
自定义镜像规范 - AI开发平台ModelArts

arams.json”中的参数，否则配置的参数将无法在推理过程中生效。 “inference_params.json”文件的参数请参见表4。该参数会显示在部署推理服务页面，在“高级设置”下会新增“参数设置”，基于配置的推理参数供模型使用者修改自定义镜像的部署参数。表4 自定义推理参数说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
模型配置文件编写说明 - AI开发平台ModelArts

框架时，请选择您使用的引擎所对应的运行时环境。目前支持的运行时环境列表请参见推理支持的AI引擎。需要注意的是，如果您的模型需指定CPU或GPU上运行时，请根据runtime的后缀信息选择，当runtime中未包含cpu或gpu信息时，请仔细阅读“推理支持的AI引擎”中每个runtime的说明信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
非分离部署推理服务 - AI开发平台ModelArts

每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
开启训练故障自动重启功能 - AI开发平台ModelArts

int机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
查看训练作业标签 - AI开发平台ModelArts

查看训练作业标签通过给训练作业添加标签，可以标识云资源，便于快速搜索训练作业。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“标签”页签查看标签信息。支持添加、修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

用户制作的自定义镜像，在本地执行docker run启动，无法正常运行；用户自行安装了Jupyterlab服务导致冲突的，需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径，删除并且卸载镜像中的Jupyterlab服务；用户自己业务占用了开发环境官方的8888、

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

登录“应用运维管理”控制台，在“配置管理 > Agent管理”中，选择未安装ICAgent的集群，并单击“安装ICAgent”。图1 安装ICAgent 建议不要随意卸载ICAgent，否则会影响特权池详情页的参数显示。父主题： Lite Cluster

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
查询训练作业参数列表 - AI开发平台ModelArts

指定每一页展示作业参数的总量，默认为10，“per_page”可选的范围为[1，1000]。 page 否 Integer 指定要查询页的索引，默认为1。 sortBy 否 String 指定查询的排序方式，默认是作业参数名称“config_name”，目前支持的排序还有作业参数描述

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
使用基础镜像 - AI开发平台ModelArts

创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：准备镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：准备镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
应用场景 - AI开发平台ModelArts
应用场景 - AI开发平台ModelArts

内容审核深入业务场景，提供完备成熟的内容审核/CV场景快速昇腾迁移的方案，高效解决业务内容审核的算力/国产化需求，助力企业业务稳健发展。政府提高公共服务的效率和质量，加强公共安全，优化政策方案和决策过程等。金融为金融机构带来更加高效、智能、精准的服务。矿山提供端到端AI生

 帮助中心 > AI开发平台ModelArts > 产品介绍
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路问题现象创建训练作业界面没有云存储名称和挂载路径这两个选项。原因分析用户的专属资源池没有进行网络打通，或者用户没有创建过SFS。处理方法在专属资源池列表中，单击资源池“ID/名称”，进入详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业

总条数： 2315

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

获取用户名和用户ID - AI开发平台ModelArts

更新可视化作业描述 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

查询作业引擎规格 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

查看训练作业标签 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

应用场景 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线