搜索_华为云

训练日志失败分析 - AI开发平台ModelArts

上一步不能解决问题时，可以尝试分析日志中提示的错误信息，定位并解决问题。也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。最后，如果以上均不能解决问题，可以提工单进行人工咨询。父主题：模型训练高可靠性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用CodeLab免费体验Notebook - AI开发平台ModelArts

tebook功能；另一方面，针对AI Gallery社区发布的Notebook样例（.ipynb格式文件），可直接在CodeLab中打开，查看他人分享的样例代码。功能亮点免费算力 CodeLab内置了免费算力，包含CPU和GPU两种。您可以使用免费规格，端到端体验ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

\ fi && \ # set bash as default rm /bin/sh && ln -s /bin/bash /bin/sh 查看创建的用户，执行以下命令： id ma-user 如果出现以下信息则表示创建成功。 uid=1000(ma-user) gid=100(ma-group)

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
准备BF16权重 - AI开发平台ModelArts

下载完成后，需要修改权重文件中config.json文件，把model_type字段值改为“deepseekv2”。方式二：将FP8权重转换为BF16权重介绍如何将DeepSeek官方发布的FP8权重转换为BF16的权重。用于生产环境的业务推荐使用此方式。具体操作步骤如下。下载FP8的权重，下载地

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
管理批量推理作业 - AI开发平台ModelArts

管理批量推理作业查看批量服务详情查看批量服务的事件管理批量服务生命周期修改批量服务配置父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
创建资源池 - AI开发平台ModelArts

是 String 用户指定的资源池名称。 os.modelarts/workspace.id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 os.modelarts/node.prefix

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
重建、停止或删除训练作业 - AI开发平台ModelArts

除对应的训练作业。进入OBS，删除本训练作业使用的OBS桶及文件。查找训练作业当用户使用IAM账号登录时，训练作业列表会显示IAM账号下所有训练作业。ModelArts提供查找训练作业功能帮助用户快速查找训练作业。操作一：单击“只显示自己”按钮，训练作业列表仅显示当前子账号下创建的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
发布技术文章（AI说） - AI开发平台ModelArts

> 我的资料”进入我的资料页面，查看“开启邮箱通知”开关，默认是打开的。如果未打开请开启。选择“评论”页签在输入框中输入评论内容，单击“发表评论”，即可成功发布评论。AI说发布者可收到评论的通知，AI说评论者也会收到评论回复的通知，所有用户均可查看资产评论并回复评论，对评论点赞等。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图1 修改ChatGLMv3-6B tokenizer文件图2 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
报名实践活动（实践） - AI开发平台ModelArts

Gallery中，可以报名参加正在进行中的实践活动。查找实践活动进入AI Gallery首页，单击“实践”，在下拉框中单击“实践 >”，进入实践首页。在实践页面，有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。图1 查找实践活动单击右上方的“我的实践”可以跳转到个人中心（“我的Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
配置ModelArts委托权限 - AI开发平台ModelArts

rts服务声明》”，然后单击“创建”。图1 配置委托访问授权完成配置后，在ModelArts控制台的权限管理列表，可查看到此账号的委托配置信息。图2 查看委托配置信息父主题：权限配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
用户AK-SK认证模式 - AI开发平台ModelArts

redentials.csv”，可打开文件查看访问密钥（Access Key Id和Secret Access Key）。 “project_id”即项目ID，获取方式如下：在“我的凭证”页面，单击“API凭证”，在“项目列表”中可查看项目ID和名称（即“项目”）。多项目时，展

 帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

原因分析用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。父主题： Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
训练作业性能降低 - AI开发平台ModelArts

通过CloudShell登录到Linux工作页面，检查GPU工作情况：通过输入“nvidia-smi”命令，查看GPU工作是否异常。通过输入“nvidia-smi -q -d TEMPERATURE”命令，查看TEMP参数是否存在异常，如果温度过高，会导致训练性能下降。父主题：训练作业性能问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

ModelArts推理默认使用公网访问在线服务。在线服务部署成功后，将为用户提供一个可调用的API，此API为标准Restful API。您可以在服务详情页面，调用指南页签中查看API接口公网地址。图1 API接口公网地址约束限制调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
管理AI Gallery中的AI应用 - AI开发平台ModelArts

在AI应用详情页，选择“设置”页签。在“环境变量管理”处，可以查看、新增、修改、删除环境变量。最多支持创建100个环境变量。变量名称不可重复，只能由下划线、字母与数字组成且不能以数字开头。查看环境变量的值：单击，可以查看当前环境变量的值。新增环境变量：单击“新增”，在编辑环境变

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

T。查看可用IP数量（可选）登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，进入“网络”页签，单击网络列表中某个网络操作列的“更多 > 查看可用IP数量”，可以看到该网络所在的网段中可以使用的IP地址数量。图3 查看可用IP数量

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

ia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。使用该裸金属服务器制作自定义镜像时，必须清除残留文件，请参考清理文件。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 2030

上一页
1
...
94
95
96
...
102
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练日志失败分析 - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

准备BF16权重 - AI开发平台ModelArts

管理批量推理作业 - AI开发平台ModelArts

创建资源池 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

报名实践活动（实践） - AI开发平台ModelArts

配置ModelArts委托权限 - AI开发平台ModelArts

用户AK-SK认证模式 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线