搜索_华为云

查看训练作业事件 - AI开发平台ModelArts

务异常时，更加准确的排查定位问题。当前支持的作业事件如下所示：训练作业创建成功训练作业创建失败报错：准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时训练作业已排队，正在等待资源分配训练作业排队失败训练作业开始运行训练作业运行成功训练作业运行失败训练作业被抢占

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

在“版本管理”页面中，选择对应的数据集版本，在数据集版本基本信息区域，单击“设置为当前版本”。设置完成后，版本名称右侧将显示为“当前版本”。图1 设置当前版本只有状态为“正常”的版本，才能被设置为当前版本。删除数据集版本登录ModelArts管理控制台，在左侧菜单栏中选

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
推理专属预置镜像列表 - AI开发平台ModelArts

1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20221121111529-d65d817 镜像构建时间：20220713110657(yyyy-mm-dd-hh-mm-ss) 镜像系统版本：Ubuntu 18.04.4 LTS cuda：10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
查找Notebook实例 - AI开发平台ModelArts

在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”，单击右上角的“创建自定义策略”，需要设置两条策略。策略1：设置查看Notebook所有实例，如图1所示，单击“确定”。 “策略名称”：设置自定义策略名称，例如：查看Notebook所有实例。 “策略配置方式”：选择可视化视图。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
查询预置算法 - AI开发平台ModelArts

ision”模型用途“model_usage”，模型精度描述“model_precision”，模型大小“model_size”，模型创建时间“create_time”，运行参数“parameter”。 order 否 String 可选值有以下两种。 “asc”为递增排序。 “

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
给子账号配置查看所有Notebook实例的权限 - AI开发平台ModelArts

在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”，单击右上角的“创建自定义策略”，需要设置两条策略。策略1：设置查看Notebook所有实例，如图1所示，单击“确定”。 “策略名称”：设置自定义策略名称，例如：查看Notebook所有实例。 “策略配置方式”：选择可视化视图。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

ServiceUnavailable 被请求的服务无效。建议直接修改该请求，不要重试该请求。 504 ServerTimeout 请求在给定的时间内无法完成。客户端仅在为请求指定超时（Timeout）参数时会得到该响应。 505 HTTP Version not supported 服务器不支持请求的HTTP协议的版本，无法完成处理。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
附录：训练常见问题 - AI开发平台ModelArts

s.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查看ModelArts模型详情 - AI开发平台ModelArts

每种探针下会显示以下字段：检查方式、健康检查URL（检查方式为“HTTP请求检查”时显示）、健康检查命令（检查方式为“执行命令检查”时显示）、健康检查周期、延迟时间、超时时间、最大失败次数。模型说明显示创建模型时添加的模型说明文档信息。系统运行架构显示系统运行架构。推理加速卡类型显示推理加速卡类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
附录：训练常见问题 - AI开发平台ModelArts

s.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

s.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查询数据集的标注任务列表 - AI开发平台ModelArts

get_label_tasks(is_workforce_task=False, **kwargs) 示例代码示例一：查询数据集下所有的标注任务，根据标注任务创建时间降序排序。 from modelarts.session import Session from modelarts.dataset import

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 标注任务管理
修改训练作业优先级 - AI开发平台ModelArts

仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。作业优先级取值为1~3，默认优先级为1，最高优先级为3。默认用户权限可选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级在创建训

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
身份认证与访问控制 - AI开发平台ModelArts

远程接入管理使用本地IDE远程SSH连接ModelArts的Notebook开发环境时，需要用到密钥对进行鉴权认证。同时支持白名单访问控制，即设置允许远程接入访问这个Notebook的IP地址。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？在Dockerfile中，可使用ENV指令来设置环境变量，具体信息请参考Dockerfile指导。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
将模型部署为批量推理服务 - AI开发平台ModelArts

安全，在环境变量中，请勿输入敏感信息，如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间，包括部署和启动时间。默认值为20分钟，输入值必须在3到120之间。 “运行日志输出” 默认关闭，批量服务的运行日志仅存放在ModelArts日志系统，在服务详情页的“日志”支持简单查询。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
在推理生产环境中部署推理服务 - AI开发平台ModelArts

32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
multi-step - AI开发平台ModelArts
multi-step - AI开发平台ModelArts

步之间连续处理，而无需等待CPU，可以将CPU开销分散到n步中，从而显著减少NPU空闲时间，提升整体性能。约束限制暂不支持Multi-Lora和投机推理场景。 multi-step参数设置启动推理服务时，使用multi-step调度需要配置的参数如下表所示。表1 开启multi-step调度参数配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用

总条数： 1133

上一页
1
2
3
4
5
...
57
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看训练作业事件 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

查找Notebook实例 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

给子账号配置查看所有Notebook实例的权限 - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

查询数据集的标注任务列表 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

multi-step - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线