搜索_华为云

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

场景介绍当Lite Cluster资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。约束限制 Lite Clus

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练Llama2-13B模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
推理场景介绍 - AI开发平台ModelArts

获取路径：Support-E 说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的模型列表和权重文件本方案支持vLLM的v0.4.2版本。不同vLLM版本支持的模型列表有差异，具体如表3所示。表3 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
创建Workflow训练作业节点 - AI开发平台ModelArts

spec 作业使用的资源规格相关配置是 JobSpec inputs 作业节点的输入列表是 JobInput或者JobInput的列表 outputs 作业节点的输出列表是 JobOutput或者JobOutput的列表 title title信息，主要用于前端的名称展示否 str

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。适配的CANN版本是cann_8.0.rc2，驱动版本是23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

computation. 原因分析分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。处理方法请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。处理方法选择其他网段的ModelArts网络重建资源池即可解决网段冲突问题。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
使用TMS标签实现资源分组管理 - AI开发平台ModelArts

ModelArts的推理在线服务对应的资源类型。 ModelArts-ResourcePool ModelArts的专属资源池对应的资源类型。如您的组织已经设定ModelArts的相关标签策略，则需按照标签策略规则为资源添加标签。标签如果不符合标签策略的规则，则可能会导致资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

to process the new request 原因分析该报错是因为发送预测请求后，服务出现停止后又启动的情况。处理方法需要您检查服务使用的镜像，确定服务停止的原因，修复问题。重新创建模型部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
批量删除标注团队成员 - AI开发平台ModelArts

参数类型描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量删除标注团队成员的结果。 success Boolean 操作是否执行成功。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
服务状态一直处于“部署中” - AI开发平台ModelArts

服务状态一直处于“部署中”，查看模型日志未发现服务有明显错误。原因分析一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。如何修改默认端口号，请参考使用自定义镜像创建在线服务，如何修改默认端口。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
请求超时返回Timeout - AI开发平台ModelArts

和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。检查模型是否启动成功或者模型处理单个消息的时长。因APIG（API网关）的限制，模型单次

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
开发环境计费项 - AI开发平台ModelArts

使用时长专属资源池专属资源池的费用已在购买时支付，运行Notebook实例时不再收费。专属资源池的费用请参考专属资源池计费项。 - - 存储资源云硬盘EVS 用于存储运行Notebook实例时产生的数据。磁盘规格默认为5GB，从Notebook实例创建成功起，直至删除成功，每GB按照规定费用收费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

valid number is 0. 原因分析该日志表示数据集中的有效样本量为0，可能有如下原因：数据未标注。标注的数据是不符合规格的（如目标检测算法要求标注为矩形框，但是提供数据标注为非矩形框）。处理方法请您检查数据是否已标注，或检查数据标注是否符合算法要求。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
日志提示“label - AI开发平台ModelArts

pbtxt。原因分析算法要求标注框为矩形标注框，提供的数据标注为非矩形，因此导致该错误发生。处理方法请您将数据的标注改为矩形的标注框。建议与总结在训练作业前，推荐您检查数据的标注是否符合算法要求（如物体检测类算法的标注框为矩形标注框）。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
模型使用CV2包部署在线服务报错 - AI开发平台ModelArts

使用CV2包部署在线服务报错。原因分析使用OBS导入元模型，会用到服务侧的标准镜像，标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务（OBS）导入CV2模型包。处理方法需要您把CV2包制作为自定义镜像，上传至容器镜像服务（SWR），选择从容

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练输出路径被其他作业使用 - AI开发平台ModelArts

根据报错信息判断，在创建训练作业时，同一个“训练输出路径”在被其他作业使用。处理方法一个“训练输出路径”只能被一个处于“运行中”、“排队中”或“初始化”状态的作业使用。当出现此报错时，建议检查并重新填写训练作业的“训练输出路径”，以避免创建作业失败。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

found分析，是cuda runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

原因分析出现该问题的可能原因：直接在OBS上写tensorboard文件，存在不稳定的风险。处理方法建议先将Tensorboard文件写到本地，然后再复制回OBS。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查询训练作业镜像保存任务 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 1715

上一页
1
...
51
52
53
...
86
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

使用TMS标签实现资源分组管理 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

批量删除标注团队成员 - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

开发环境计费项 - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

日志提示“label - AI开发平台ModelArts

模型使用CV2包部署在线服务报错 - AI开发平台ModelArts

训练输出路径被其他作业使用 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

查询训练作业镜像保存任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线