搜索_华为云

成本管理 - AI开发平台ModelArts
成本管理 - AI开发平台ModelArts

ModelArts提供AI工具链、AI算力，成本由AI算力的资源成本和运维成本构成。成本分配 ModelArts支持企业项目管理，可以由企业项目服务来管理同一账号下不同项目的成本。成本分析通过华为云费用账单来分析账号下的成本支出情况。成本优化长期使用的资源，建议客户使用更优惠的

 帮助中心 > AI开发平台ModelArts > 计费说明
如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

如何提升训练效率，同时减少与OBS的交互？场景描述在使用ModelArts进行自定义深度学习训练时，训练数据通常存储在对象存储服务（OBS）中，且训练数据较大时（如200GB以上），每次都需要使用GPU资源池进行训练，且训练效率低。希望提升训练效率，同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
如何购买或开通ModelArts？ - AI开发平台ModelArts

能才涉及计费，公共资源池全部为按需模式，根据选用规格以及作业运行时长收费。专属资源池可按需购买，也可选择包年包月购买，在运行训练作业或部署服务时，选择专属资源池，无需另外付费。父主题：一般性问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
obsutil安装和配置 - AI开发平台ModelArts

obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具，使用该工具可以对OBS进行常用的配置管理操作，如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。操作命

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
包年/包月转按需 - AI开发平台ModelArts

在弹出的“调整到期策略”页面，确认无误后单击“确定”。图1 调整到期策略进入“费用中心 > 续费管理”页面。自定义查询条件。可在“到期转按需项”页签查询已经设置到期转按需的资源。可对“手动续费项”、“自动续费项”、“到期不续费项”页签的资源设置到期转按需的操作。设置包年/包月资源到期后转按需。

帮助中心 > AI开发平台ModelArts > 计费说明 > 变更计费模式
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

原因分析用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。父主题： Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
自动学习的每个项目对数据有哪些要求？ - AI开发平台ModelArts

过该数据集训练得到模型时的输出（预测项）。除标签列外数据集中至少还应包含两个有效特征列（列的取值至少有两个且数据缺失比例低于10%）。当前由于特征筛选算法限制，预测数据列建议放在数据集最后一列，否则可能导致训练失败。声音分类对数据集的要求音频只支持16bit的WAV格式。支持WAV的所有子格式。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 准备数据
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

setting max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时，请参考以下步骤进行基础排查。网络链路检查在ModelArts控制台查看Notebook实例状态是否正常，确保实例无问题。在VS Code Terminal里执行如下命令检测SSH命令是否可用； ssh -i

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

复制的文件需要放在Dockerfile同级文件夹或者子目录中，不能放在Dockerfile上层目录。图2 Dockerfile复制文件路径错误解决方案查看用户Dockerfile中的COPY命令中的文件的路径。将要复制的文件放到Dockerfile同级目录或子目录中，如图，Dockerfile在“

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

集进行LoRA微调以优化模型性能的过程。启动SD1.5 LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_lora_train.sh 启动SDXL LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_lora_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
训练作业性能降低 - AI开发平台ModelArts

通过CloudShell登录到Linux工作页面，检查GPU工作情况：通过输入“nvidia-smi”命令，查看GPU工作是否异常。通过输入“nvidia-smi -q -d TEMPERATURE”命令，查看TEMP参数是否存在异常，如果温度过高，会导致训练性能下降。父主题：训练作业性能问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
VSCode远程连接时卡顿，或Python调试插件无法使用如何处理？ - AI开发平台ModelArts

Code安装了第三方中文插件引起。解决方案卸载中文插件：如果安装了中文插件，建议先卸载。如果问题仍未解决，可以在VS Code官方社区查找相关解决方案或更新插件。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
自动学习/Workflow计费项 - AI开发平台ModelArts

消息通知（不开启则不计费）消息通知服务订阅消息使用消息通知服务，在事件列表中选择需要监控的节点/Workflow状态，在事件发生时发送消息通知。如果想使用消息通知，需要提前在自动学习、Workflow中开启消息通知功能。具体计费可见消息通知服务价格详情。按实际用量付费发送短信通知费用构成：短信通知条数

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
标注结果存储在哪里？ - AI开发平台ModelArts

anifest文件（包含数据及标注信息）。详细文件说明可参见数据集发布后，相关文件的目录结构说明。查看步骤在ModelArts管理控制台，进入“数据管理>数据集”。选择需查看数据集，单击名称左侧小三角，展开数据集详情。可获得“数据集输出位置”指定的OBS路径。获取标注信息

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理

总条数： 1949

上一页
1
...
83
84
85
...
98
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

成本管理 - AI开发平台ModelArts

如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

如何购买或开通ModelArts？ - AI开发平台ModelArts

obsutil安装和配置 - AI开发平台ModelArts

包年/包月转按需 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

自动学习的每个项目对数据有哪些要求？ - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

VSCode远程连接时卡顿，或Python调试插件无法使用如何处理？ - AI开发平台ModelArts

自动学习/Workflow计费项 - AI开发平台ModelArts

标注结果存储在哪里？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线