搜索_华为云

旧版训练迁移至新版训练需要注意哪些问题？ - AI开发平台ModelArts

where the trained ckpt file') args = parser.parse_args() ... # 下载的代码无需设置，后续涉及训练数据和输出路径数据使用data_url和train_url即可 #下载数据参数至容器本地，在代码中使用local_data_path代表训练输入位置

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
创建训练作业 - AI开发平台ModelArts

训练作业名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 job_desc 否 String 对训练作业的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 config 是 Object 创建训练作业需要的参数。详情请参见表3。 workspace_id 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。图4 创建SFS Turbo 需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用户/训练系统，将CUDA_VISIBLE_DEVICES传错了，检查CUDA_VISIBLE_DEVICES变量是否正常。用户选择了1/2/4卡这些规格的作业，然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号，与实际选择的卡ID不匹配。处理方法尽量代码里不要去修改CUD

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决？ - AI开发平台ModelArts

“C:\Users”目录下的文件名必须和Windows登录用户名完全一致。右键单击.ssh文件夹，选择“属性”。然后单击“安全”页签。单击“高级”，在弹出的高级安全设置界面单击“禁用继承”，在弹出的“阻止继承”窗口单击“从此对象中删除所有继承的权限”。此时所有用户都将被删除。添加所有者：在同一窗口中，

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

/home/ma-user/modelarts/user-job-dir/run_train.sh #训练自定义镜像-预置命令场景运行命令就可以设置为： bash /home/ma-user/modelarts/user-job-dir/run_train.sh python /hom

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
附录：大模型推理常见问题 - AI开发平台ModelArts

zer/chatglm3-6b/config.json 问题3：使用离线推理时，性能较差或精度异常。解决方法：将block_size大小设置为128。 from vllm import LLM, SamplingParams llm = LLM(model="facebook/opt-125m"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
人工标注音频数据 - AI开发平台ModelArts

类型，可以在列表的右上角单击“选择当前页”，则当前页面所有的音频将选中。添加标签。在右侧的“添加标签”区域中，单击“标签”下侧的文本框设置标签。方式一（已存在标签）：单击“标签”下方的文本框，在快捷键下拉列表中选择快捷键，然后在标签文本输入框中选择已有的标签名称，然后单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
发布镜像到AI Gallery - AI开发平台ModelArts

在镜像详情页，单击右侧“发布”，在发布镜像页面编辑发布信息后，单击“发布”。表1 发布镜像的参数说明参数名称说明中文名称镜像发布后显示的名称，在创建镜像时设置的名称，此处不可编辑。描述必填项，填写资产简介，镜像发布后将显示在镜像页签上，方便用户快速了解资产。支持1~90个字符，请勿在描述中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决？ - AI开发平台ModelArts

“C:\Users”目录下的文件名必须和Windows登录用户名完全一致。右键单击.ssh文件夹，选择“属性”。然后单击“安全”页签。单击“高级”，在弹出的高级安全设置界面单击“禁用继承”，在弹出的“阻止继承”窗口单击“从此对象中删除所有继承的权限”。此时所有用户都将被删除。添加所有者：在同一窗口中，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
查看日志和性能 - AI开发平台ModelArts

time per iteration)*1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

（IAM）服务。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”，单击右上角的“创建自定义策略”按如下要求设置完成后单击“确定”。 “策略名称”：设置自定义策略名称，例如：允许通过Cloud Shell访问运行中的训练作业。 “策略配置方式”：选择可视化视图。 “策略

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
增加AppCode - AI开发平台ModelArts
增加AppCode - AI开发平台ModelArts

表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token 是 String 用户token。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
重置AppCode - AI开发平台ModelArts
重置AppCode - AI开发平台ModelArts

表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token 是 String 用户token。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
附录：训练常见问题 - AI开发平台ModelArts

问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数： vim

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查询训练作业详情 - AI开发平台ModelArts

String 指定作业所处的工作空间，默认值为“0”。 description String 对训练作业的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 create_time Long 训练作业创建时间戳，单位为毫秒，创建成功后由ModelArts生成返回，无需填写。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
模型训练使用流程 - AI开发平台ModelArts

分布式训练训练加速训练高可靠性查看训练结果和日志查看训练作业详情训练作业运行中或运行结束后，可以在训练作业详情页面查看训练作业的参数设置，训练作业事件等。查看训练作业日志训练日志用于记录训练作业运行过程和异常信息，可以通过查看训练作业日志定位作业运行中出行的问题。表2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

告警和故障恢复。容器应该采用https的安全传输通道，并使用业界推荐的加密套件保证业务数据的安全性。部署上线部署服务时，需要注意为服务设置合适计算节点规格，防止服务因资源不足而过载或者资源过大而浪费。尽量避免在容器中监听其他端口，有本地内部需要访问的其他端口，监听在local

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
发布模型到AI Gallery - AI开发平台ModelArts

在模型详情页，单击右侧“发布”，在发布模型页面编辑发布信息后，单击“发布”。表1 发布模型的参数说明参数名称说明中文名称模型发布后显示的名称，在创建模型时设置的名称，此处不可编辑。任务类型选择合适的任务类型。许可证必填项，根据业务需求选择合适的许可证类型。描述必填项，填写资产简介，模

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型

总条数： 759

上一页
1
...
31
32
33
...
38
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

旧版训练迁移至新版训练需要注意哪些问题？ - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决？ - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

人工标注音频数据 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

发布镜像到AI Gallery - AI开发平台ModelArts

报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决？ - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

增加AppCode - AI开发平台ModelArts

重置AppCode - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

发布模型到AI Gallery - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线