搜索_华为云

BF16和FP16说明 - AI开发平台ModelArts

下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
管理Lite Cluster节点池 - AI开发平台ModelArts

每个资源池至少需要有一个节点池，当只有一个节点池时不支持删除。查看节点池的存储配置在节点池管理的更新页面，可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。在Lite资源池的扩缩容页面，也可以查看节点池的存储配置信息。查找搜索节点池在节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
启动停止边缘节点服务实例 - AI开发平台ModelArts

（响应消息头中X-Subject-Token的值）。表3 请求Body参数参数是否必选参数类型描述 status 是 String 服务状态，取值为： running：running为启动节点实例，只有处于stopped状态的节点实例支持启动。 stopped：stop

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
获取Workflow工作流节点度量信息 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。 step_execution_id 是 String 工作流的一次执行中一个节点的执行ID。请求参数无响应参数

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

NPU 掉卡 NPU卡丢失。节点规格的NPU卡数和k8sNode中可调度卡数不一致。可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。发起维修流程。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点 - AI开发平台ModelArts

Notebook的JupyterLab 原因分析本地挂载目录是在Notebook容器的“~/data”目录下创建的demo-yf文件夹，而JupyterLab左侧导航默认路径为“~/work”目录，相当于/data和/work是同一层级，所以在JupyterLab中看不到。打开Terminal后，默认为~work

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 文件上传下载
重试/停止/运行Workflow节点 - AI开发平台ModelArts

动工作流。在当前节点的运行状况页面，单击“重试”。在重试之前您也可以前往权限管理页面修改配置，节点重试启动后新修改的配置信息可以在当前执行中立即生效。停止单击指定节点查看详情，可以对运行中的节点进行停止操作。继续运行对于单个节点中设置了需要运行中配置的参数时，节点运行会处

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
构建条件节点控制分支执行 - AI开发平台ModelArts

主要用于执行流程的条件分支选择，可以简单的进行数值比较来控制执行流程，也可以根据节点输出的metric相关信息决定后续的执行流程。主要应用场景如下：可以用于需要根据不同的输入值来决定后续执行流程的场景。例如：需要根据训练节点输出的精度信息来决定是重新训练还是进行模型的注册操作时可以使用该节点来实现流程的控制。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
配置节点参数控制分支执行 - AI开发平台ModelArts

支持单节点通过参数配置或者获取训练输出的metric指标信息来决定执行是否跳过，同时可以基于此能力完成对执行流程的控制。应用场景主要用于存在多分支选择执行的复杂场景，在每次启动执行后需要根据相关配置信息决定哪些分支需要执行，哪些分支需要跳过，达到分支部分执行的目的，与ConditionStep的使用场景类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
修复Standard专属资源池故障节点 - AI开发平台ModelArts

如果是“按需计费”的资源池，您可单击操作列的“删除”，即可实现对单个节点的资源释放。如果想批量删除节点，勾选待删除节点名称前的复选框，然后单击名称上方的“删除”，即可实现对多个节点的资源释放。如果是“包年/包月”且资源未到期的资源池，您可单击操作列的“退订”，即可实现对单个节点的资源释放。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
IEF节点边缘服务部署失败 - AI开发平台ModelArts

部署边缘服务时，使用到IEF纳管的边缘节点，就需要用户给ModelArts的委托赋予Tenant Administrator权限，否则将无法成功部署边缘服务。具体可参见IEF的权限说明。处理方法1 在ModelArts管理控制台，选择“权限管理”。在用户名对应的“授权内容”列，单击“查

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
专属资源池购买后，中途扩容了一个节点，如何计费？ - AI开发平台ModelArts

专属资源池购买后，中途扩容了一个节点，如何计费？华为云会重新计算一个增加了该节点的账单，付费以后才能使用。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

抽象处理。因此，与模型前向运算相关的所有源代码都被直接复制粘贴到同一个文件中，而不是调用某些抽象提取出的模块化库。Diffusers的这种设计原则的好处是代码简单易用、对代码贡献者友好。然而，这种反软件结构化的设计也有明显的缺点。由于缺乏统一的模块化库，对于昇腾适配而言变得更加复

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

r server（简称ps）和worker两种角色，ps和worker会被调度到相同的机器上。由于训练数据对于ps没有用，因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
管理Lite Cluster资源池 - AI开发平台ModelArts

表示读取资源池镜像中的默认值。绑核：开启CPU绑核表示工作负载实例独占CPU，可以提升应用性能（比如训练作业、推理任务性能），减少应用的调度延迟，适用于对CPU缓存和调度延迟敏感的场景。关闭绑核表示关闭工作负载实例独占CPU的功能，优点是CPU共享池可分配的核数较多。也可关闭系

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
自动模型优化介绍 - AI开发平台ModelArts

索点处目标函数值的均值和方差。根据均值和方差构造采集函数（Acquisition Function），下一个搜索点为采集函数的极大值点。相比网格搜索，贝叶斯优化会利用之前的评估结果，从而降低迭代次数、缩短搜索时间；缺点是不容易找到全局最优解。表1 贝叶斯优化的参数说明参数说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自定义镜像，使用的训练框架是MPI或Horovod。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

进入资源池详情页，在节点管理页面，选择需要进行驱动升级的节点，单击操作列的“更多 > 驱动升级”。在“驱动升级”弹窗中，会显示当前专属资源池节点的名称ID、规格和驱动版本号，选择节点待升级的“升级版本”。单击“确定”，开始升级单个节点的驱动。父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系 - AI开发平台ModelArts

JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系 JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的，或者是从OBS目录中同步的文件。挂载OBS存储的Notebook，JupyterLab目录的文件可以与

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

异常模式-NVLINK部分互通，出现带宽波动较大的情况。如下图中GPU0和GPU4之间带宽远低于理论值，存在问题。图3 异常模式带宽性能出现这种现象，可尝试重装nvidia/cuda/nvidia-fabricmanager，重装后再测试又恢复到了正式模式，GPU0和GPU4之间带宽恢复到370GB/s。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 1614

上一页
1
2
3
4
5
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

BF16和FP16说明 - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

启动停止边缘节点服务实例 - AI开发平台ModelArts

获取Workflow工作流节点度量信息 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点 - AI开发平台ModelArts

重试/停止/运行Workflow节点 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

专属资源池购买后，中途扩容了一个节点，如何计费？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线