搜索_华为云

管理在线服务生命周期 - AI开发平台ModelArts

及日志流，避免LTS日志流超过限额产生额外费用，如后续不再使用，建议删除。重启服务只有当在线服务处于“运行中”或“告警”状态时，才可进行重启操作。批量服务、边缘服务不支持重启。您可以通过如下方式重启在线服务：登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
使用MaaS调优模型 - AI开发平台ModelArts

自动重启选择是否打开“自动重启”开关。开关关闭（默认关闭）：表示不启用自动重启。开关打开：表示当由于环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。打开开关后，可以设置“最大重启次数”和是否启用“无条件自动重启”。重启次数的取

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
LoRA微调训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
训练作业容错检查 - AI开发平台ModelArts

用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
从OBS目录导入数据规范说明 - AI开发平台ModelArts

<filename>bike_1_1593531469339.png</filename> <source> <database>Unknown</database> </source> <size> <width>554</width>

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
Standard自动学习 - AI开发平台ModelArts

ModelArts自动学习与ModelArts PRO的区别是什么？在ModelArts中图像分类和物体检测具体是什么？在ModelArts自动学习中模型训练图片异常怎么办？在ModelArts自动学习中，如何进行增量训练？创建自动学习项目时，如何快速创建OBS桶及文件夹？自动学习生成的模型，存储在哪里？支持哪些其他操作？

帮助中心 > AI开发平台ModelArts > 常见问题
创建ModelArts数据集 - AI开发平台ModelArts

“队列名称”：系统自动将当前账号下的DLI队列展现在列表中，您可以在下拉框中选择您所需的队列。 “数据库名称”：根据选择的队列展现所有的数据库，请在下拉框中选择您所需的数据库。 “表名称”：根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。 DLI的详细功能说明，请参见《DLI用户指南》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

在KeyPair中选择该Notebook实例对应的密钥，选择完成后，单击Apply进行远程Notebook一键配置，等待一段时间后，会出现重启IDE的确认框，单击确认重启，重启后即可生效。图13 ToolKit连接Notebook配置界面 KeyPair: 需要选择保存在本地的Notebook对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
修改在线服务配置 - AI开发平台ModelArts

当修改了服务的某些参数配置时，系统会自动重启服务使修改生效。在提交修改服务任务时，如果涉及重启，会有弹窗提醒。在线服务参数说明请参见部署模型为在线服务。修改在线服务还需要配置“最大无效实例数”设置并行升级的最大节点数，升级阶段节点无效。修改在线服务参数时，可通过增加一个自定义的环境变量参数，触发服务重启。例如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

群性能分析，助力开发者天级完成性能调优。 MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能，借助于数据库支持超大性能数据处理，可以支持20GB的集群性能文件分析，并且能够支持大模型场景下的性能调优，相比于Chrometrace、tensorboard等工具提供了更优的功能和性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
修改批量服务配置 - AI开发平台ModelArts

在服务列表中，单击目标服务操作列的“修改”，修改服务基本信息，然后根据提示提交修改任务。当修改了服务的某些参数配置时，系统会自动重启服务使修改生效。在提交修改服务任务时，如果涉及重启，会有弹窗提醒。批量服务参数说明请参见将模型部署为批量推理服务。方式二：通过服务详情页面修改服务信息登录Mod

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
训练迁移快速入门案例 - AI开发平台ModelArts

torch;import torch_npu;print(torch_npu.npu.is_available())" torch_npu使用报错看不懂怎么办？应该怎么求助？如果报错可以首先在昇腾社区论坛以及Gitee的PyTorch Issues中查看是否有类似的问题找到相关线索。如果还无法解决

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

告警及时响应。 ModelArts承载关键业务的对外开放EIP部署了高防服务，以防大流量攻击。 ModelArts对存放关键数据的数据库部署了数据库安全服务。云服务防抖动和遭受攻击后的应急响应/恢复策略 ModelArts服务具备租户资源隔离能力，避免单租户资源被攻击导致爆炸半径大，影响其他租户。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
数据保护技术 - AI开发平台ModelArts

数据保护手段说明静态数据保护对于AI Gallery收集的用户个人信息中的敏感信息，如用户邮箱和手机号，AI Gallery在数据库中做了加密处理。其中，加密算法采用了国际通用的AES算法。传输中的数据保护在ModelArts中导入模型时，支持用户自己选择HTTP和

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全

总条数： 427

上一页
1
...
4
5
6
...
22
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

管理在线服务生命周期 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

从OBS目录导入数据规范说明 - AI开发平台ModelArts

Standard自动学习 - AI开发平台ModelArts

创建ModelArts数据集 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

修改在线服务配置 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线