搜索_华为云

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

ModelArts-xxx port xxx: Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

ModelArts-xxx port xxx: Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
更新开发环境实例信息 - AI开发平台ModelArts

存储路径。如果type为“obs”类型，该值必须填写，该值需为有效的OBS桶路径，且以“/”结束。不能指定为OBS桶的根目录，需指定为OBS桶下的具体目录。如果type为“obsfs”类型，该值需为有效的OBS并行文件系统的桶名（当前CCE不支持挂载子目录）。如果type为“evs”类型，该值不需要填写。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

购买ModelArts专属资源池购买弹性云服务器ECS 基本配置：权限配置专属资源池VPC打通 ECS服务器挂载SFS Turbo存储在ECS中创建ma-user和ma-group obsutils安装和配置（可选）工作空间配置训练：上传数据至OBS（首次使用时需要）上传算法至SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
创建训练作业参数 - AI开发平台ModelArts

训练作业参数名称。限制为1-64位只含数字、字母、下划线或者中划线的名称。 config_desc 否 String 对训练作业的描述，默认为空，字符串的长度限制为[0，256]。 worker_server_num 是 Integer 训练作业worker的个数，最大值请从查询作业资源规格接口获取。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
安装VS Code软件 - AI开发平台ModelArts

Code下载方式：下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求：建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下：图2 Windows系统下VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
ModelArts平台是否支持多模型导入 - AI开发平台ModelArts

ModelArts平台从对象存储服务（OBS）中导入模型包适用于单模型场景。如果有多模型复合场景，推荐使用自定义镜像方式，通过从容器镜像（SWR）中选择元模型的方式创建AI应用部署服务。制作自定义镜像请参考从0-1制作自定义镜像并创建AI应用。父主题：导入模型

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
删除训练作业参数 - AI开发平台ModelArts

config_name 是 String 训练作业参数的名称。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。调用成功时无此字段。 error_code

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建开发环境实例 - AI开发平台ModelArts

存储路径。如果type为“obs”类型，该值必须填写，该值需为有效的OBS桶路径，且以“/”结束。不能指定为OBS桶的根目录，需指定为OBS桶下的具体目录。如果type为“obsfs”类型，该值需为有效的OBS并行文件系统的桶名（当前CCE不支持挂载子目录）。如果type为“evs”类型，该值不需要填写。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
更新训练作业参数 - AI开发平台ModelArts

String 自定义镜像训练作业的自定义镜像的SWR-URL。如：“100.125.5.235:20202/jobmng/custom-cpu-base:1.0”。 user_command 否 String 自定义镜像训练作业的自定义镜像的容器的启动命令。形式为：“bash /home/work/run_train

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

print('start') kv_store = mxnet.kv.create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。处理方法将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态，同时ps能够重新发送。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询预置算法 - AI开发平台ModelArts

Integer 指定每一页展示作业参数的总量，默认为10，“per_page”可选的范围为[1，100]。 page 否 Integer 指定要查询页的索引，默认为1。 sortBy 否 String 指定查询的排序方式，默认是根据引擎查找“engine”，目前支持的排序还有模型名称“mode

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

原因分析一：密钥文件未放在指定路径，详情请参考安全限制或VS Code文档。请参考解决方法一处理。原因分析二：当操作系统为macOS/Linux时，可能是密钥文件或放置密钥的文件夹权限问题，请参考解决方法二处理。解决方法解决方法一：请将密钥放在如下路径或其子路径下： Windows：C:\Users\{{user}}

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
专属资源池关联SFS Turbo显示异常 - AI开发平台ModelArts

同时该网络的解除关联SFS Turbo按钮置灰不可操作。图3 关联SFS Turbo状态原因分析 ModelArts缺少SFS Turbo委托权限导致关联或解除关联失败。处理方法需要您给ModelArts配置SFS Turbo委托权限，配置步骤请参考最佳实践的“委托授权ModelArts云服务使用SFS

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
查询可视化作业详情 - AI开发平台ModelArts

resource_id String 可视化作业的计费资源ID。 job_id Long 可视化作业的ID。 job_desc String 可视化作业的具体描述。 duration Long 可视化作业的运行时长，单位为毫秒。 create_time Long 可视化作业的创建时间，时间戳格式。 train_url

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
更新可视化作业描述 - AI开发平台ModelArts

job_desc 是 String 对可视化作业的描述，字符串的长度限制为[0，256]。响应消息响应参数如表3所示。表3 响应参数参数参数类型说明 is_success Boolean 请求是否成功。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业

总条数： 2173

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

ModelArts平台是否支持多模型导入 - AI开发平台ModelArts

删除训练作业参数 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

创建开发环境实例 - AI开发平台ModelArts

更新训练作业参数 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

专属资源池关联SFS Turbo显示异常 - AI开发平台ModelArts

查询可视化作业详情 - AI开发平台ModelArts

更新可视化作业描述 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线