搜索_华为云

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

运行训练作业时提示URL连接超时问题现象训练作业在运行时提示URL连接超时，具体报错如下： urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
创建训练作业 - AI开发平台ModelArts

RunningRecord 参数参数类型描述 start_at Integer 本次运行开始时间的unix时间戳，单位为秒(s)。 end_at Integer 本次运行结束时间的unix时间戳，单位为秒(s)。 start_type String 本地运行的启动方式： init_

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

采用自定义引擎，开启动态加载并配置健康检查示例图部署在线服务部署服务时，需满足以下参数配置：自定义部署超时时间大模型加载启动的时间一般大于普通的模型创建的服务，请配置合理的“部署超时时间”，避免尚未启动完成被认为超时而导致部署失败。添加环境变量部署服务时，增加如下环境变量，会将负载均衡的请求亲

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import moxing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查找Workflow工作流 - AI开发平台ModelArts

速搜索过滤到相应的工作流，可节省您的时间。登录ModelArts管理控制台，在左侧导航栏选择“开发空间>Workflow”，进入Workflow总览页面。在工作流列表上方的搜索框中，根据您需要的属性类型，例如名称、状态、当前节点、启动时间、运行时长或标签等，过滤出相应的工作流。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
查看训练作业详情 - AI开发平台ModelArts

非昇腾规格的作业运行失败后，您可以在作业状态的提示信息中，单击ModelArts开发者论坛进行发帖或者搜索已有问题。 “创建时间” 记录训练作业创建时间。 “运行时长” 记录训练作业运行时长，是训练作业全生命周期中多次的k8s资源运行的时长总和。 “重启次数” 记录训练过程中时

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
修改训练作业优先级 - AI开发平台ModelArts

仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。作业优先级取值为1~3，默认优先级为1，最高优先级为3。默认用户权限可选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级在创建训

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
创建可视化作业 - AI开发平台ModelArts

Object 自动停止设置。参见表4。表3 flavor属性列表参数是否必选参数类型说明 code 是 String 可视化作业选择的资源规格编码。通过flavor接口获得。表4 schedule属性列表参数是否必选参数类型说明 type 是 String 设置为stop。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版数据集下线公告华为云计划于2024/10/31 00:00（北京时间）用AI开发平台ModelArts的新版数据集全面替代旧版数据集，旧版数据集正式下线。下线范围下线区域：华北-北京四（其他区域已下线）受影响服务 ModelArts旧版数据集。

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
修改工作空间配额 - AI开发平台ModelArts

se 参数参数类型描述 max_quota Integer 配额允许设置的最大值。 update_time Integer 最后修改时间，UTC。如用户未修改过该资源配额,则该值默认为该工作空间的创建时间。 resource String 资源的唯一标识。 quota Integer

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
设置无条件自动重启 - AI开发平台ModelArts

适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
部署模型为在线服务 - AI开发平台ModelArts

全，在环境变量中，请勿输入敏感信息，如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间，包括部署和启动时间。默认值为20分钟，输入值必须在3到120之间。 “添加模型版本进行灰度发布” 当选择的模型有多个版本时，您可以添加多个模型版本，并配置其分流占比，完成多版本和灵

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Shell界面提示如下。图1 Cloud Shell界面当作业处于非运行状态或权限不足时会导致无法使用Cloud Shell，请根据提示定位原因即可。图2 报错提示部分用户登录Cloud Shell界面时，可能会出现路径显示异常情况，此时在Cloud Shell中单击回车键即可恢复正常。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

1434 SQL Server的TCP端口，用于返回SQLServer使用了哪个TCP/IP端口。 Oracle 1521 Oracle通信端口，弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

在“版本管理”页面中，选择对应的数据集版本，在数据集版本基本信息区域，单击“设置为当前版本”。设置完成后，版本名称右侧将显示为“当前版本”。图1 设置当前版本只有状态为“正常”的版本，才能被设置为当前版本。删除数据集版本登录ModelArts管理控制台，在左侧菜单栏中选

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
推理专属预置镜像列表 - AI开发平台ModelArts

1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20221121111529-d65d817 镜像构建时间：20220713110657(yyyy-mm-dd-hh-mm-ss) 镜像系统版本：Ubuntu 18.04.4 LTS cuda：10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
网卡名称错误 - AI开发平台ModelArts

网卡名称错误当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法

总条数： 1150

上一页
1
2
3
4
5
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

查找Workflow工作流 - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

修改工作空间配额 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

图模式 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线