搜索_华为云

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

将用户的自定义指标上报保存到AOM。约束与限制 ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。自定义配置中提供的命令或http接口返回的指标数据文本不能大于8KB。命令方式采集自定义指标数据用于创建自定义指标采集POD的YAML文件示例如下。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
训练作业卡死检测 - AI开发平台ModelArts

问题现象4 使用pytorch中的dataloader读数据时，作业卡在读数据过程中，日志停在训练的过程中并不再更新日志。解决方案4 用dataloader读数据时，适当减小num_worker。常见案例：训练最后一个epoch卡死问题现象通过日志查看数据切分是否对齐，如果未对齐

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

Gallery使用的Transformers机器学习库是一个开源的基于Transformer模型结构提供的预训练语言库。Transformers库注重易用性，屏蔽了大量AI模型开发使用过程中的技术细节，并制定了统一合理的规范。使用者可以便捷地使用、下载模型。同时支持用户上传自己的预训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
下载JupyterLab文件到本地 - AI开发平台ModelArts

使用OBS或ModelArts SDK将OBS中的文件下载到本地。方式一：使用OBS进行下载在OBS中，可以将样例中的“obs_file.txt”下载到本地。如果您的数据较多，推荐OBS Browser+下载数据或文件夹。使用OBS下载文件的操作指导，请参见下载文件。方式二：使用ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
自定义镜像使用场景 - AI开发平台ModelArts

在AI业务开发以及运行的过程中，一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题，在ModelArts的AI开发最佳实践中，通过容器镜像的方式将运行环境进行固化，以这种方式不仅能够进行依赖管理，而且可以方便的完成工作环境切换。配合ModelArts提供的云化容

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
Controlnet训练 - AI开发平台ModelArts

述清楚人物四肢的角度、背景中物体的位置、光线照射的角度，使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。将Controlnet适配到昇腾卡进行训练，可以提高能效、支持更大模型和多样化部署环境，提升昇腾云在图像生成和编辑场景下的竞争力。本章节介绍SDXL&SD

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
训练作业运行失败排查指导 - AI开发平台ModelArts

label_map.pbtxt.”。如果使用的是AI Gallery订阅的算法，建议先检查数据的标签是否有问题。如果使用的是物体检测类算法，建议检查数据的label框是否为非矩形。物体检测类算法仅支持矩形label框。查看训练作业的“日志”，出现报错“RuntimeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
创建训练实验 - AI开发平台ModelArts

TrainingExperimentResponseMetadata object 训练实验数据。 statistic TrainingExperimentStatistic object 训练实验的统计数据。表5 TrainingExperimentResponseMetadata 参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

ModelArts作为顶层服务，其部分功能依赖于其他服务的访问权限。本章节主要介绍对于IAM子账号使用ModelArts时，如何根据需要开通的功能配置子账号相应权限。权限列表子账号的权限，由主用户来控制，主用户通过IAM的权限配置功能设置用户组的权限，从而控制用户组内的子账号的权限。此处的授权列表均按照Mode

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
创建训练作业 - AI开发平台ModelArts

划线和中划线的名称。 job_desc 否 String 对训练作业的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 config 是 Object 创建训练作业需要的参数。详情请参见表3。 workspace_id 否 String 指定作业所处的工作空间，默认值为“0”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

source”选“Custom”时，显示此参数。当用户输入的命令中不包含“--data_url”和“--train_url”参数时，工具在提交训练作业时会在命令后面自动添加这两个参数，分别对应存储训练数据的OBS路径和存放训练输出的OBS路径。 Data OBS Path 设置为存储训练数据的OBS路径，例如“/t

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
查询服务详情 - AI开发平台ModelArts

运行模型需要的环境变量键值对。 instance_count Integer 模型部署的实例数。 src_path String 批量任务输入数据的OBS路径。 dest_path String 批量任务输出结果的OBS路径。 req_uri String 批量任务中调用的推理路径。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
Lite Cluster&Server介绍 - AI开发平台ModelArts

同计费类型/计费周期的资源，解决如下用户的使用场景：用户在包长周期的资源池中无法扩容短周期的节点。用户无法在包周期的资源池中扩容按需的节点（包括AutoScaler场景）。支持SFS产品权限划分支持SFS权限划分特性，可以实现训练场景中，挂载的SFS的文件夹能够权限控制，

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
发布免费模型 - AI开发平台ModelArts

设置“ModelArts区域”。设置可以使用该资产的ModelArts区域，以控制台实际可选值为准。选择“AI应用名称”。从ModelArts的AI应用管理中选择待发布的模型。支持将使用容器镜像导入的模型和其他训练产生的模型发布至AI Gallery。在“资产版本”填写新的版本号。发布HiLens技能

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

取训练作业日志的对应的obs路径。调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获取IAM的EndPoint和ModelArts的EndPoint。确认服务的部署区域，获取项

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

size的大小最大支持50G。如果使用的是OBS导入或者训练导入，则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。如果使用的是自定义镜像导入，则包含解压后镜像和镜像下载文件的大小总和。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

tch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。 Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。 --trust-remote-code：是否相信远程代码。 --dtype：模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16，bfloat1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
修改训练作业优先级 - AI开发平台ModelArts

户组页面查找待授权的用户组名称，在右侧的操作列单击“授权”，勾选步骤2创建的自定义策略，单击“下一步”，选择授权范围方案，单击“确定”。此时，该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。如果没有用户组，也可以创建一个新的用户组，并通过“用户

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

ner_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载/home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作

总条数： 1407

上一页
1
...
61
62
63
...
71
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

下载JupyterLab文件到本地 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

创建训练实验 - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线