搜索_华为云

复制数据卡死 - AI开发平台ModelArts

_NUMBER_OF_PROCESSES=1 V2版本修改：可以 file_io._LARGE_FILE_METHOD = 1，将模式设置成V1然后用V1的方式修改规避，也可以直接file_io._LARGE_FILE_TASK_NUM=1。拷贝文件夹时可采用： mox.file.co

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
专属资源池创建训练作业 - AI开发平台ModelArts

专属资源池创建训练作业创建训练作业界面无云存储名称和挂载路径排查思路父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？ - AI开发平台ModelArts

创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？问题分析创建训练作业选择的代码目录有大小和文件个数限制。解决方法将代码目录中除代码以外的文件删除或存放到其他目录，保证代码目录大小不超过128MB，文件个数不超过4096个。父主题：创建训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
Lite Server资源配置 - AI开发平台ModelArts

Lite Server资源配置 Lite Server资源配置流程配置Lite Server网络配置Lite Server存储配置Lite Server软件环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
Lite Cluster资源配置 - AI开发平台ModelArts

Lite Cluster资源配置 Lite Cluster资源配置流程配置Lite Cluster网络配置kubectl工具配置Lite Cluster存储（可选）配置驱动（可选）配置镜像预热

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

量、当前版本、目标版本和升级方式。目标版本：在目标版本下拉框中，选择一个目标驱动版本。升级方式：选择“升级方式”，可选择安全升级或强制升级。开启滚动：单击开启后，支持滚动升级的方式进行驱动升级。当前支持“按节点比例”和“按节点数量”两种滚动方式。按节点比例：每批次驱动升级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

| grep net.ipv4.ip_forward Step3 创建镜像组织在SWR服务页面创建镜像组织。图2 创建镜像组织 Step4 获取推理基础镜像建议使用官方提供的镜像部署服务。镜像地址{image_url}参考镜像版本。 docker pull {image_url}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
创建Standard专属资源池 - AI开发平台ModelArts

您可单击“+”即可添加子网（上限10个）。如果需要使用打通VPC的方式实现专属资源池访问公网，由于要访问的公网地址不确定，一般是建议用户在VPC中创建SNAT。此场景下，在打通VPC后，专属资源池中作业访问公网地址，默认不能转发到用户VPC的SNAT，需要提交工单联系技术支持

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
自定义镜像规范 - AI开发平台ModelArts

Infer_port 选填，推理服务提供的端口，缺省值为8080。只支持部署HTTP服务。自定义镜像可以通过是否上传自定义推理参数文件“gallery_inference/inference_params.json”决定镜像在部署推理服务时是否支持设置推理参数。如果在自定义镜像的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
训练作业卡死检测 - AI开发平台ModelArts

使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面上展示，同时能配置通知及时提醒用户作业卡死。检测规则卡死检测主要是通过监控作业进程的状态和资源利用率来判定作业是否卡死。会启动一个进程来周期性地监控上述两个指标的变化情况。进程状态：只要

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
边缘服务 - AI开发平台ModelArts
边缘服务 - AI开发平台ModelArts

边缘服务什么是边缘节点？更新AI应用版本时，边缘服务预测功能不可用？使用边缘节点部署边缘服务能否使用http接口协议？父主题：部署上线

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线
为什么通过Manifest文件导入失败？ - AI开发平台ModelArts

针对已发布的数据集，使用此数据集的Manifest文件，重新导入，此时出现导入失败的错误。原因分析针对已发布的数据集，其对应的OBS目录下，发生了数据变化，如删除图片，导致此Manifest文件与当前OBS目录下的数据情况不符。使用此Manifest文件再次导入时，出现错误。解决方案方法1（推荐），建

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
推理精度测试 - AI开发平台ModelArts

同的部署方式api参数输入、输出解析方式不同，目前支持tgi、vllm等方式，本案例使用vllm部署方式。若要在生产环境中进行精度测试，还需修改benchmark_eval/config/config.json中app_code，app_code获取方式见访问在线服务（APP认证）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
使用ModelArts Standard训练模型 - AI开发平台ModelArts

使用ModelArts Standard训练模型模型训练使用流程准备模型训练代码准备模型训练镜像创建调试训练作业创建算法创建生产训练作业增量模型训练分布式模型训练模型训练存储加速自动模型优化（AutoSearch）模型训练高可靠性管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
推理精度测试 - AI开发平台ModelArts

#运行opencompass脚本 ├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保Notebook内通网，已

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 问题现象在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4302。原因分析及处理方法服务预测报错ModelArts.4302有多种场景，以下主要介绍两种场景： "error_msg":

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
调用API提交训练作业后，能否绘制作业的资源占用率曲线？ - AI开发平台ModelArts

调用API提交训练作业后，能否绘制作业的资源占用率曲线？调用API提交训练作业后，您可登录ModelArts控制台，在“模型训练 > 训练作业”中，单击“名称/ID”进入“训练作业详情”页面的“资源占用情况”模块，查看作业的资源占用率曲线。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
计费相关 - AI开发平台ModelArts
计费相关 - AI开发平台ModelArts

计费相关如何查看ModelArts中正在收费的作业？如何查看ModelArts消费详情？ ModelArts上传数据集收费吗？ ModelArts标注完样本集后，如何保证退出后不再产生计费？ ModelArts自动学习所创建项目一直在扣费，如何停止计费？如果不再使用ModelArts，如何停止收费？

帮助中心 > AI开发平台ModelArts > 常见问题
删除资源池 - AI开发平台ModelArts

删除资源池功能介绍删除指定的资源池。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/pools/{pool_name}

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1933

上一页
1
...
57
58
59
...
97
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

复制数据卡死 - AI开发平台ModelArts

专属资源池创建训练作业 - AI开发平台ModelArts

创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？ - AI开发平台ModelArts

Lite Server资源配置 - AI开发平台ModelArts

Lite Cluster资源配置 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

边缘服务 - AI开发平台ModelArts

为什么通过Manifest文件导入失败？ - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用ModelArts Standard训练模型 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

调用API提交训练作业后，能否绘制作业的资源占用率曲线？ - AI开发平台ModelArts

计费相关 - AI开发平台ModelArts

删除资源池 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线