搜索_华为云

创建训练任务 - AI开发平台ModelArts

训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。训练作业执行成功后，日志信息如下所示。父主题：单机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。若找不到相关文件的问题，可以搜索相关文件在哪里，然后复制到指定目录，例如可执行如下命令： cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf /etc/infiniband/

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

性能预期：QPS 20/s - 业务访问方式推理业务访问：“客户端 -> 云服务” 或 “云客户端 -> 云服务”。推理业务时延要求，客户端到云服务端到端可接受时延。例如：当前是“客户端 -> 云服务”模式，客户端请求应答可接受的最长时延为2秒。 - 模型参数规模，是否涉及分布式推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
查看训练作业日志 - AI开发平台ModelArts

HOST侧（训练容器）。如果出现如下情况，则device日志会获取不到。节点异常重启被主动停止的节点在训练进程结束后，该日志会生成到训练容器中。其中，使用MindSpore预置框架训练的device日志会自动上传到OBS，使用其他预置框架和自定义镜像训练的device日志

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Standard自动学习 - AI开发平台ModelArts

ModelArts自动学习，为入门级用户提供AI零代码解决方案支持图片分类、物体检测、预测分析、声音分类场景自动执行模型开发、训练、调优和推理机器学习的端到端过程根据最终部署环境和开发者需求的推理速度，自动调优并生成满足要求的模型 ModelArts自动学习，为资深级用户提供模板化开发能力提

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
团队标注审核 - AI开发平台ModelArts

sample_id 否 String 样本ID，可调用查询样本列表接口获取。 score 否 String 评审分数，当前可取A/B/C/D四个值，从高到低排列。 worker_id 否 String 标注成员ID，可调用标注成员列表接口获取。响应参数无请求示例团队标注审核。设置是否通过为“true”，评审分数为“A”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
发布免费模型 - AI开发平台ModelArts

Gallery首页，选择“资产集市 > 模型”，进入模型页面。单击“发布”，弹出“选择云服务区域”，选择区域后单击“确定”跳转到“发布资产到AI Gallery”页面。发布ModelArts模型如果是发布新资产。 “发布方式”选择“创建新资产”。填写“资产标题”。即在AI Gallery显示的资产名称。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
管理Lite Cluster节点 - AI开发平台ModelArts

图4 添加/编辑/删除资源标签导出节点数据支持导出Lite资源池的节点信息到Excel表格中，方便查阅。勾选节点名称，在节点列表上方单击“导出 > 导出全部数据到XLSX”或者“导出 > 导出部分数据到XLSX”，在浏览器的下载记录中查看导出的Excel表格。驱动升级支持升

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

{training-project}”是存放训练代码的文件夹名称。训练时会自动下载OBS中{training-project}目录下的数据到训练容器的本地路径$MA_JOB_DIR/{training-project}/。如果报错路径为训练数据路径，需要在以下两个地方完成适配，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
模型包结构介绍 - AI开发平台ModelArts

如果您在导入元模型过程中遇到问题，可联系华为云技术支持协助解决故障。模型包结构示例 TensorFlow模型包结构发布该模型时只需要指定到“ocr”目录。 OBS桶/目录名 |── ocr | ├── model 必选：固定子目录名称，用于放置模型相关文件 | │

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

池扩容后再进行服务部署。公共资源池扩容，请联系系统管理员。专属资源池扩容，可参考扩缩容资源池。如果磁盘空间不够，可以尝试重试，使实例调度到其他节点。如果单实例仍磁盘空间不足，请联系系统管理员，更换合适的规格。如果是大模型导入的模型部署服务，请确保专属资源池磁盘空间大于1T（1000GB）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

如果环境中装了多版本的cuda，可以排查LD_LIBRARY_PATH中的cuda优先级，需要手动调整下。举例：如果cuda只兼容cuda-9.1，查询到LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:/usr/local/cuda-9.1/lib64 需要手动调整优先级，执行命令export

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
准备镜像环境 - AI开发平台ModelArts

容器不能挂载/home/ma-user目录，此目录为ma-user用户家目录。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 ${image_name} 为docker镜像的ID，在宿主机上可通过docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

容器不能挂载/home/ma-user目录，此目录为ma-user用户家目录。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 ${image_name} 为docker镜像的ID，在宿主机上可通过docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
什么是ModelArts - AI开发平台ModelArts

境，多种操作流程和模式，方便开发者编码扩展，快速构建模型及应用。产品架构 ModelArts是一个一站式的开发平台，能够支撑开发者从数据到AI应用的全流程开发过程。包含数据处理、模型训练、AI应用管理、AI应用部署等操作，并且提供AI Gallery功能，能够在市场内与其他开发者分享模型。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
提交验收任务的样本评审意见 - AI开发平台ModelArts

sample_id 否 String 样本ID，可调用查询样本列表接口获取。 score 否 String 评审分数，当前可取A/B/C/D四个值，从高到低排列。 worker_id 否 String 标注成员ID，可调用标注成员列表接口获取。响应参数无请求示例提交验收任务的样本评审意

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

新的作业。旧版训练管理是否停止新购？是的，旧版训练管理将于2023年6月30日 00:00(北京时间)正式退市。旧版训练管理如何升级到新版训练？请参考新版训练指导文档（模型训练）来体验新版训练。旧版训练迁移至新版训练需要注意哪些问题？新版训练和旧版训练的差异主要体现在

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

output2=obs://bucket/output2 --input String 否训练的输入信息，指定后，训练任务将会把对应OBS上的数据下载到训练容器，并将数据存储路径通过指定的参数传递给训练脚本。如果需要指定多个参数，可以使用--input data_path1=obs://bucket/data1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.910) - AI开发平台ModelArts

me/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。进入容器。需要将${container_name}替换为实际的容器名称。启动容器默认使用ma-user用户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
发布本地AI应用到AI Gallery - AI开发平台ModelArts

AI应用英文名称是自定义一个易于分辨的AI应用英文名称。只能以数字、大小字母、下划线组成，且字符长度在3到90之间。中文名称是自定义一个易于分辨的AI应用中文名称。字符长度在1到30之间。许可证否选择AI应用遵循的许可证。计算规格选择是按需选择计算规格。单击“选择”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用

总条数： 993

上一页
1
...
39
40
41
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建训练任务 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

Standard自动学习 - AI开发平台ModelArts

团队标注审核 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

模型包结构介绍 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

提交验收任务的样本评审意见 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.910) - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线