搜索_华为云

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

进入资源池详情页，在节点管理页面，选择需要进行驱动升级的节点，单击操作列的“更多 > 驱动升级”。在“驱动升级”弹窗中，会显示当前专属资源池节点的名称ID、规格和驱动版本号，选择节点待升级的“升级版本”。单击“确定”，开始升级单个节点的驱动。父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

镜像的部署参数。计算规格选择 - 按需选择计算规格。单击“选择”，在弹窗中选择资源规格并设置运行时长控制，单击“确定”。在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据，AI Gal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

在资源池列表中，选择需要进行驱动升级的资源池“ > 驱动升级”。图1 驱动升级在“驱动升级”弹窗中，会显示当前专属资源池的驱动类型、实例数、当前版本、目标版本、升级方式、升级范围和开启滚动开关。目标版本：在目标版本下拉框中，选择一个目标驱动版本。升级方式：可选择安全升级或强制升级。安全升级：待节

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

ompare_tools，通过对训练耗时和内存占用的比对分析，定位到具体劣化的算子，帮助用户提升性能调优的效率。工具将训练耗时拆分为计算、通信、调度三大维度，并针对计算和通信分别进行算子级别的比对；将训练占用的总内存，拆分成算子级别的内存占用进行比对。对于集群训练场景，昇腾提供

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
不同机型的对应的软件配套版本 - AI开发平台ModelArts

Memory Access（RDMA）是一种直接内存访问技术，将数据直接从一台计算机的内存传输到另一台计算机。 RoCE：RDMA over Converged Ethernet（RoCE）是一种网络协议，允许应用通过以太网实现远程内存访问。 IB：InfiniBand (IB)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

统一管理，同时支持将模型快速部署上线为服务。约束与限制针对使用订阅算法的训练作业，无需推理代码和配置文件，其生成的模型可直接导入ModelArts。使用容器化部署，导入的元模型有大小限制，详情请参见导入模型对于镜像大小限制。前提条件请确保训练作业已运行成功，且模型已存储

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
查询训练作业详情 - AI开发平台ModelArts

参数类型描述 flavor_id String 资源规格的ID。 flavor_name String 资源规格的名称。 max_num Integer 资源规格的最大节点数。 flavor_type String 资源规格的类型。可选值如下： CPU GPU Ascend billing

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

1:8080/goodbye 图3 访问在线服务 limit/request配置cpu和内存大小，已知单节点Snt9B机器为：8张Snt9B卡+192u1536g，请合理规划，避免cpu和内存限制过小引起任务无法正常运行。父主题： Lite Cluster资源使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
网络调整公告 - AI开发平台ModelArts

后续使用新网络创建Standard资源池。表1 上线局点上线局点上线时间华东二 2024年10月29日 20:00 父主题：产品变更公告

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
使用CodeLab免费体验Notebook - AI开发平台ModelArts

实例进行使用。切换规格。 CodeLab支持CPU和GPU两种规格，在右侧区域，单击切换规格，修改规格类型。图3 切换规格资源监控。在使用过程中，如果想了解资源使用情况，可在右侧区域选择“Resource Monitor”，展示“CPU使用率”和“内存使用率”。图4 资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

模型需要更新的参数量，从而节省NPU内存并提高推理速度。轻量化适配：无需改变原始模型结构，通过低秩矩阵的调整即可适配不同任务。多任务并行：支持同时加载多个LoRA模块，使得VLLM可以在不同任务间快速切换，提高多任务推理的效率。约束限制 multi-lora特性不能和Chunked

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
创建训练任务 - AI开发平台ModelArts

install -r requirements.txt && /bin/sh run.sh 资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择所需GPU规格。计算节点个数：选择需要的节点个数。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
BF16和FP16说明 - AI开发平台ModelArts

FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
准备镜像环境 - AI开发平台ModelArts

通过SSH登录，不同机器之间网络互通。购买Lite Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备镜像环境 - AI开发平台ModelArts

通过SSH登录，不同机器之间网络互通。购买Lite Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
终止训练作业 - AI开发平台ModelArts

参数类型描述 flavor_id String 资源规格的ID。 flavor_name String 资源规格的名称。 max_num Integer 资源规格的最大节点数。 flavor_type String 资源规格的类型。可选值如下： CPU GPU Ascend billing

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
修改批量服务配置 - AI开发平台ModelArts

实现服务升级。您可以通过如下两种方式修改服务的基本信息：方式一：通过服务管理页面修改服务信息方式二：通过服务详情页面修改服务信息前提条件服务已部署成功，“部署中”的服务不支持修改服务信息进行升级。约束限制服务升级关系着业务实现，不当的升级操作会导致升级期间业务中断的情况，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
服务启动失败 - AI开发平台ModelArts

服务启动失败，提示拉取镜像失败，请参考服务部署、启动、升级和修改时，拉取镜像失败如何处理？资源不足，服务调度失败服务启动失败，提示资源不足，服务调度失败，请参考服务部署、启动、升级和修改时，资源不足如何处理？内存不足服务启动失败，提示内存不足，请参考内存不足如何处理？父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
BF16和FP16说明 - AI开发平台ModelArts

FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明

总条数： 933

上一页
1
...
4
5
6
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

网络调整公告 - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

multi-lora - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线