搜索_华为云

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

保存镜像”，进入“保存镜像”页面，设置组织、镜像名称、镜像版本和描述信息后单击“确认”保存镜像。此时Notebook会冻结，需要等待几分钟。详细操作请参考保存Notebook镜像环境。图7 保存镜像查看所保存的镜像保存后的镜像可以在ModelArts控制台“镜像管理”页面查看到该镜像详情

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
推理场景介绍 - AI开发平台ModelArts

保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。镜像版本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
查询算法列表 - AI开发平台ModelArts

算法版本数量，默认为0。 size Integer 算法大小。 create_time Long 算法创建时间戳。 update_time Long 算法更新时间戳。表6 job_config 参数参数类型描述 code_dir String 算法的代码目录。如：“/usr/app/”。应与boot_file一同出现。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

务，完成资源的申请。步骤1 安装模型安装Megatron-DeepSpeed框架。使用root用户SSH的方式登录GPU裸金属服务器。具体登录方式请参见SSH密钥方式登录裸金属服务器。拉取pytorch镜像，可以选择常用的镜像源进行下载。 docker pull nvcr

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
推理场景介绍 - AI开发平台ModelArts

保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。镜像版本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“g

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
创建训练作业 - AI开发平台ModelArts

训练作业创建成功响应说明参数类型描述 TrainingJob Object 训练对象，该对象包含job_id等属性，对训练作业的查询、更新、删除等操作时，可通过job_instance.job_id获取训练作业ID。表7 调用训练接口失败响应参数参数类型描述 error_msg

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

til工具快速使用，将OBS桶中的数据下载至SFS Turbo中。注意：需要使用用户账号中的AK和SK进行签名验证，确保通过授权的账号才能访问指定的OBS资源。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备图像分类数据 - AI开发平台ModelArts

txt”规范如下。一行一个标签： flower book ... 上传OBS操作步骤：执行如下操作，将数据上传到OBS中，以便用于模型训练和构建。登录OBS管理控制台，在ModelArts同一区域内创建桶。如果已存在可用的桶，需确保OBS桶与ModelArts在同一区域。参考上传文件，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
推理场景介绍 - AI开发平台ModelArts

保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。镜像版本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

|---log |---code 在PyCharm ToolKit工具中查看训练日志在PyCharm ToolKit工具中，单击页面右下角的ModelArts Training Log，展示训练日志。图7 查看训练日志父主题：创建调试训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
启动推理服务 - AI开发平台ModelArts

E_DEVICES指定的可用卡数一致。 --address：头节点IP+端口号，头节点创建成功后，会有打印。环境变量每个节点都要设置。更新环境变量需要重启Ray集群。选择其中一个节点，添加指定分布式后端参数【--distributed-executor-backend=ra

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
ModelArts Standard资源监控 - AI开发平台ModelArts

ModelArts Standard资源监控 ModelArts Standard资源监控概述在ModelArts控制台查看监控指标在AOM控制台查看ModelArts所有监控指标使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
自动学习/Workflow计费项 - AI开发平台ModelArts

假设用户于2023年4月1日创建了一个Workflow实例，并在10:00:00运行实例进行模型训练，在11:00:00进行服务部署，并在11:30:00停止运行。同时，使用专属资源池运行实例。按照存储费用结算，那么运行这个Workflow实例的费用如下：存储费用：Workflow实例的数据通过对象存储服务（

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

指定算法所属的ai项目，默认值为"default-ai-project"。ai项目已下线，无需关注。 user_name String 用户名称。 domain_id String 用户的domainID。 source String 算法来源类型。 api_version String 算法api版本，标识新旧版。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询训练作业详情 - AI开发平台ModelArts

ssh SSHResp object SSH连接信息。 jupyter_lab JupyterLab object JupyterLab连接信息。 tensorboard Tensorboard object Tensorboard连接信息。 mindstudio_insight

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
AI Gallery（新版） - AI开发平台ModelArts

AI Gallery（新版） AI Gallery使用流程发布和管理AI Gallery模型发布和管理AI Gallery数据集发布和管理AI Gallery项目发布和管理AI Gallery镜像发布和管理AI Gallery中的AI应用使用AI Gallery微调大师训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

权重文件存放目录。如果使用了量化功能，则使用推理模型量化章节转换后的权重。 --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

batch中不同部分的数据。网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。每个进程前向传播并各自计算梯度。模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。各GPU更新模型参数。具体流程图如下：图1 多机多卡数据并行训练代码改造点引入多进程启动机制：初始化进程

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 1423

上一页
1
...
52
53
54
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备图像分类数据 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

ModelArts Standard资源监控 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

自动学习/Workflow计费项 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

AI Gallery（新版） - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线