搜索_华为云

设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
模型发布失败 - AI开发平台ModelArts

模型发布失败模型发布任务提交失败和模型发布失败问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取模型ID。进入“模型管理”页面，在模型管理页面找到自动学习任务中自动创建的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型发布
SFT全参微调训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
创建图像分类项目 - AI开发平台ModelArts

创建图像分类项目 ModelArts自动学习，包括图像分类、物体检测、预测分析、声音分类和文本分类项目。您可以根据业务需求选择创建合适的项目。您需要执行如下操作来创建自动学习项目。创建项目登录ModelArts管理控制台，在左侧导航栏选择“开发空间 > 自动学习”，进入自动学习页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

解压AscendCloud-3rdLLM-6.3.905-xxx.zip代码包。 unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件，自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
LoRA微调训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

表示服务部署成功。预计时长4分钟左右。步骤4：预测结果在线服务部署完成后，单击“预测”页签。在“预测”页签，单击“上传”，上传一个测试图片，单击“预测”查看预测结果。此处提供一个样例图片供预测使用。本案例中使用的订阅模型可以识别81类常见超市商品，模型对预测图片有一定范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
基于MindSpore Lite的模型转换 - AI开发平台ModelArts

shape的打印，并明确输入的batch。一般来说，推理时指定的inputShape和用户的业务及推理场景紧密相关，可以通过原始模型推理脚本或者网络模型进行判断。需要把Notebook中的模型下载到本地后，再放入netron官网中，查看其inputShape。如果netron

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

MoXing是ModelArts自研的分布式训练加速框架，构建于开源的深度学习引擎TensorFlow、PyTorch等之上，使用MoXing API可让模型代码的编写更加简单、高效。 MoXing提供了一套文件对象API，可以用来读写OBS文件。您可以通过MoXing API文档了解其与原生API对应

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
单模型性能调优AOE - AI开发平台ModelArts

> aoe_unet2.log 此时，aoe_output下面会有对应的mindir模型，包含了AOE知识库信息。使用benchmark工具测试新生成的mindir模型性能，同AOE调优前的模型进行对比，可以看到模型性能有所提升。 #shell # 调优前命令如下： benchmark

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径路径修改说明：执行训练脚本前，需修改pretrain_clip_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径，如图1所示；执行训练脚本前，修改finetune_onevision_ascend.sh中的数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
自动学习/Workflow计费项 - AI开发平台ModelArts

自动学习/Workflow计费项计费说明在ModelArts自动学习和Workflow中进行模型训练和推理时，会使用计算资源和存储资源，会产生计算资源和存储资源的累计值计费。具体内容如表1所示。计算资源费用：如果运行自动学习作业/Workflow工作流时，使用专属资源池进行模型训练和推理，计算资源不计费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？场景描述在Ubuntu 20.04每次内核升级后，系统需要重新启动以加载新内核。如果您已经安装了自动更新功能，则系统将自动下载和安装可用的更新，这可能导致系统在不经意间被重启，如果使用的软件依赖于特定版本的内核，那么当系统自动更新

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

0/resolve/main/sd_xl_base_1.0.safetensors。编写Dockerfile文件。基于官方提供的基础镜像构建自定义镜像sdxl-train:0.0.1。参考如下命令编写Dockerfile文件。镜像地址{image_url}请参见表2。 FROM {image_url}

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
AI开发基本概念 - AI开发平台ModelArts

AI开发基本概念机器学习常见的分类有3种：监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。常见的有回归和分类。非监督学习：在未加标签的数据中，试图找到隐藏的结构。常见的有聚类。强化学习：智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大。

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识

总条数： 1486

上一页
1
...
43
44
45
...
75
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置在线服务故障自动重启 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

模型发布失败 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

创建图像分类项目 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

自动学习/Workflow计费项 - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

AI开发基本概念 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线