搜索_华为云

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运算设置的卡ID号

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
查询服务列表 - AI开发平台ModelArts

service_id 否 String 服务ID，默认不过滤服务ID。 service_name 否 String 服务名称，默认不过滤服务名。 infer_type 否 String 推理方式，取值为：real-time/batch/edge，默认不过滤推理方式。 offset 否 Integer

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
Standard推理部署 - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ ModelArts平台是否支持多模型导入？在ModelArts中导入模型对于镜像大小有什么限制？ ModelArts在线服务和批量服务有什么区别？ ModelArts在线服务和边缘服务有什么区别？在ModelArts中部署模型时，为什么无法选择Ascend

帮助中心 > AI开发平台ModelArts > 常见问题
查询算法详情 - AI开发平台ModelArts

查询算法详情功能介绍根据算法id查询指定算法。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/algorithms/{algorithm_id}

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查看批量服务的事件 - AI开发平台ModelArts

查看批量服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
创建Workflow服务部署节点 - AI开发平台ModelArts

创建Workflow服务部署节点功能介绍通过对ModelArts服务管理能力的封装，实现Workflow新增服务和更新服务的能力。主要应用场景如下：将模型部署为一个Web Service。更新已有服务，支持灰度更新等能力。属性总览您可以使用ServiceStep来构建服务部署节点，ServiceStep结构如下

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
删除APP - AI开发平台ModelArts
删除APP - AI开发平台ModelArts

删除APP 功能介绍删除指定的APP，只有APP的创建用户才可以删除APP，且APP没有绑定的API。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
查询工作空间配额 - AI开发平台ModelArts

查询工作空间配额功能介绍查询工作空间配额。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/workspaces/{workspace_id}/quotas

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务，显示创建失败 - AI开发平台ModelArts

问题现象创建LoRA调优任务，选择支持Modellink框架类型的模型Qwen2-0.5B，数据集选择MOSS格式的jsonl数据，添加超参设置，创建调优任务失败。关键日志报错： AttributeError: 'Parameter' object has no attribute

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

服务管理通过patch操作对服务进行更新查询服务监控信息查询服务列表部署服务查询支持的服务部署规格查询服务详情更新服务配置删除服务更新模型服务的单个属性查询专属资源池列表查询服务事件日志启动停止边缘节点服务实例查询服务更新日志添加资源标签删除资源标签

 帮助中心 > AI开发平台ModelArts > API参考
模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
重置节点后无法正常使用？ - AI开发平台ModelArts

重置节点后无法正常使用？问题现象当ModelArts Lite的CCE集群在资源池上只有一个节点，且用户设置了volcano为默认调度器时，在ModelArts侧进行重置节点的操作后，节点无法正常使用，节点上的POD会调度失败。原因分析在ModelArts侧进行节点重置后

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
团队标注审核 - AI开发平台ModelArts

团队标注审核功能介绍团队标注审核。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{dataset

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
精度调优前准备工作 - AI开发平台ModelArts

在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。此外，问题定位主要基于GPU环境和NPU环境上运行的过程

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境注意事项本文旨在指导如何在Snt9b裸金属服务器上，进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项：首次装机时需要配置存储、固件、驱动、网络访问等基础内容，这部分配置尽量稳定减少变化。裸机上的开发形

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
资产识别与管理 - AI开发平台ModelArts

Gallery中的资产，AI Gallery会做统一的保存管理。对于文件类型的资产，AI Gallery会将资产保存在AI Gallery官方的OBS桶内。对于镜像类型的资产，AI Gallery会将资产保存在AI Gallery官方的SWR仓库内。对于用户提供的一些个人信息，AI

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json，数据大小：43.6 MB。自定义数据预训练数据：用户也可以自行准备预训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
安装Gallery CLI配置工具 - AI开发平台ModelArts

用户的账号ID，获取方式请参见获取账号名和账号ID。 iam_user IAM用户名，获取方式请参见获取用户名和用户ID。 iam_password IAM用户密码，即账号的登录密码。 iam_ak 访问密钥AK，获取方式请参见访问密钥。 iam_sk 访问密钥SK，获取方式请参见访问密钥。 repo_url

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
修改工作空间配额 - AI开发平台ModelArts

修改工作空间配额功能介绍修改工作空间配额。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/workspaces/{workspace_id}/quotas

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
训练的数据集预处理说明 - AI开发平台ModelArts

--seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明

总条数： 2323

上一页
1
...
52
53
54
...
117
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

创建Workflow服务部署节点 - AI开发平台ModelArts

删除APP - AI开发平台ModelArts

查询工作空间配额 - AI开发平台ModelArts

创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务，显示创建失败 - AI开发平台ModelArts

服务管理 - AI开发平台ModelArts

模型训练高可靠性 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

团队标注审核 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

资产识别与管理 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

修改工作空间配额 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线