搜索_华为云

Notebook停止或者重启后，“/cache”下的文件还存在么？如何避免重启？ - AI开发平台ModelArts

Notebook停止或者重启后，“/cache”下的文件还存在么？如何避免重启？ “/cache”目录下存储的是临时文件，在Notebook实例停止或重启后，不会被保存。存储在“/home/ma-user/work”目录下的数据，在Notebook实例停止或重启后，会被保留。为

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 数据存储
在ModelArts Standard上运行GPU训练任务的场景介绍 - AI开发平台ModelArts

Standard上运行GPU训练任务的场景介绍不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。 ModelArts S

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

系统设置的默认值为3，表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128，表示数据包走交换机的队列4，队列4使用PFC流控机制来保证网络是无损的。如果训练时，需要提升通信稳定性，可以增加配置其他NCCL环境变量，如表2所示。表2 建议增加的环境变量环境变量

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
自动学习生成的模型，存储在哪里？支持哪些其他操作？ - AI开发平台ModelArts

自动学习生成的模型，存储在哪里？支持哪些其他操作？模型统一管理针对自动学习项目，当模型训练完成后，其生成的模型，将自动进入“模型管理”页面，如下图所示。模型名称由系统自动命名，前缀与自动学习项目的名称一致，方便辨识。自动学习生成的模型，不支持下载使用。图1 自动学习生成的模型自动学习生成的模型，支持哪些其他操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用窍门
单模型性能调优AOE - AI开发平台ModelArts

使用AOE工具可以在模型转换阶段对于模型运行和后端编译过程进行执行调优，注意AOE只适合静态shape的模型调优。在AOE调优时，容易受当前缓存的一些影响，建议分两次进行操作，以达到较好的优化效果（第一次执行生成AOE的知识库，在第二次使用时可以复用）。在该场景中，AOE对text_encoder等模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
使用Moxing时如何定义路径变量？ - AI开发平台ModelArts

age,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), mox这个函数怎么定义以变量的形式填写OBS路径？解决方案变量定义参考如下示例： input_storage = './test.py' import moxing as

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

ummary可能是本地缓存，在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后，由于达到了OBS单次导入文件大小的上限，导致无法继续写入。处理方法如果在运行训练作业的过程中出现该问题，建议处理方法如下：推荐使用本地缓存的方式来解决，使用如下方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
如何查看账号ID和IAM用户ID - AI开发平台ModelArts

如何查看账号ID和IAM用户ID 使用IAM账号登录华为云。在页面右上方单击“控制台”，进入华为云管理控制台。图1 控制台入口在控制台右上角的账户名下方，单击“我的凭证”，进入“我的凭证”页面。图2 我的凭证在API凭证页面获取IAM用户名、用户ID、账号名和账号ID。图3

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
如何关闭Mox的warmup - AI开发平台ModelArts

如何关闭Mox的warmup 问题现象训练作业mox的Tensorflow版本在运行的时候，会先执行“50steps” 4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
配置Lite Server存储 - AI开发平台ModelArts

ux中的远程目录。提供海量、安全、高可靠、低成本的数据存储能力，可供用户存储任意类型和大小的数据。可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，可满足不同场景的业务需求。云硬盘就类似PC中的硬盘。存储数据的逻辑存放的是文件，会以文件和文件夹的层次结构来整理和呈现数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
数据保护技术 - AI开发平台ModelArts

保证数据传输的安全性，推荐用户使用更加安全的HTTPS协议。数据完整性检查推理部署功能模块涉及到的用户模型文件和发布到AIGallery的资产在上传过程中，有可能会因为网络劫持、数据缓存等原因，存在数据不一致的问题。ModelArts提供通过计算SHA256值的方式对上传下载的数据进行一致性校验。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
资源选择推荐 - AI开发平台ModelArts

说明时长镜像下载首次下载镜像的时间（25G）。 8分钟资源调度点创建训练任务开始到变成运行中的时间（资源充足、镜像已缓存）。 20秒训练列表页打开已有50条训练作业，单击训练模块后的时间。 6秒日志加载作业运行中，已经输出1兆的日志文本，单击训练详情页面需要多久加载出日志。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

ython语言的ModelArts SDK接口。详细指导文档：《ModelArts SDK参考》 OBS SDK OBS服务提供的SDK，对OBS进行操作。由于ModelArts较多功能需使用OBS中存储的数据，用户可使用OBS SDK进行调用，使用OBS存储您的数据。 OBS

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
在ModelArts上训练模型，输入输出数据如何配置？ - AI开发平台ModelArts

_url”代替算法中数据来源和数据输出所需的路径。在使用预置框架创建算法时，根据1中的代码参数设置定义的输入输出参数。训练数据是算法开发中必不可少的输入。“输入”参数建议设置为“data_url”，表示数据输入来源，也支持用户根据1的算法代码自定义代码参数。模型训练结束后，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。DeepSp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
使用大模型在ModelArts Standard创建AI应用部署在线服务 - AI开发平台ModelArts

申请扩大AI应用的大小配额和使用节点本地存储缓存白名单上传模型数据并校验上传对象的一致性创建专属资源池创建AI应用部署在线服务申请扩大AI应用的大小配额和使用节点本地存储缓存白名单服务部署时，默认情况下，动态加载的模型包位于临时磁盘空间，服务停止时已加载的文件会被删除，

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
基于MindSpore Lite的模型转换 - AI开发平台ModelArts

转换关键参数准备对应的模型转换成MindIR格式，通过后端绑定的编译形式来运行以达到更好的性能（类似静态图的运行模式），所以需要提前准备以下几个重点参数。输入的inputShape，包含batch信息。 MSLite涉及到编译优化的过程，不支持完全动态的权重模式，需要在转换时确定对应的inp

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
实时推理的部署及使用流程 - AI开发平台ModelArts

实时推理的部署及使用流程在创建完模型后，可以将模型部署为一个在线服务。当在线服务的状态处于“运行中”，则表示在线服务已部署成功，部署成功的在线服务，将为用户提供一个可调用的API，此API为标准Restful API。访问在线服务时，您可以根据您的业务需求，分别确认使用何种认证

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
动态扩充云硬盘EVS容量 - AI开发平台ModelArts

Notebook实例的存储配置采用的是云硬盘EVS。图1 创建Notebook实例时选择云硬盘EVS存储单次最大可以扩容100GB，扩容后的总容量不超过4096GB。云硬盘EVS存储容量最大支持4096GB，达到4096GB时，不允许再扩容。实例停止后，扩容后的容量仍然有效。计

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例

总条数： 2153

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Notebook停止或者重启后，“/cache”下的文件还存在么？如何避免重启？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练任务的场景介绍 - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

自动学习生成的模型，存储在哪里？支持哪些其他操作？ - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

使用Moxing时如何定义路径变量？ - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

如何查看账号ID和IAM用户ID - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

在ModelArts上训练模型，输入输出数据如何配置？ - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建AI应用部署在线服务 - AI开发平台ModelArts

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

实时推理的部署及使用流程 - AI开发平台ModelArts

动态扩充云硬盘EVS容量 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线