搜索_华为云

准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

kubectl。图2 kubectl 访问集群配置在节点机器中，输入命令，查看Kubernetes集群信息。若显示如图图3的内容，则配置成功。 kubectl cluster-info 图3 查看 Kubernetes 集群信息正确弹出内容创建SFS Turbo SFS Turbo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 准备工作
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自定义镜像，使用的训练框架是MPI或Horovod。准备一个sshd启动脚本文件“start_sshd

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
删除APP - AI开发平台ModelArts
删除APP - AI开发平台ModelArts

工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。请求参数表3 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
开发环境的应用示例 - AI开发平台ModelArts

要将Token放到请求消息头中作为认证。调用查询支持的镜像列表接口查看开发环境的镜像类型和版本。调用创建Notebook实例接口创建一个Notebook实例。调用查询Notebook实例详情接口根据Notebook实例的ID查询实例的创建详情。调用Notebook时长续约

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

ata.json，数据大小：43.6 MB。自定义数据用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
AI Gallery简介 - AI开发平台ModelArts

> 数据集”：共享了数据集。 AI Gallery的数据模块支持数据集的共享和下载。在AI Gallery的“数据”中，可以查找并下载满足业务需要的数据集。也可以将自己本地的数据集发布至AI Gallery中，共享给其他用户使用。 “资产集市 > 算法”：共享了算法。 AI Ga

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
查询工作空间列表 - AI开发平台ModelArts

enterprise_project_id 否 String 企业项目id，指定此参数会只返回该企业项目id下的工作空间。默认显示所有工作空间。 name 否 String 工作空间名称查询参数，指定此参数会模糊查询该名称的工作空间。默认显示所有工作空间。 filter_accessible 否 Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
使用AWQ量化 - AI开发平台ModelArts

size参数，指定-1时为per-channel权重量化，W4A16支持128和-1，W8A16支持-1。 --w-bit：量化比特数，W4A16设置4，W8A16设置8。 --calib-data：数据集路径，推荐使用：https://huggingface.co/datasets/mit-ha

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
查询Workflow Execution - AI开发平台ModelArts

查询Workflow Execution 功能介绍通过ID查询Workflow Execution详情。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
如何在训练中加载部分训练好的参数？ - AI开发平台ModelArts

如何在训练中加载部分训练好的参数？在训练作业时，需要从预训练的模型中加载部分参数，初始化当前模型。请您通过如下方式加载：通过如下代码，您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import mox_flags

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

it”的ID码。确认创建Notebook实例使用的镜像的系统架构，可以在Notebook中打开Terminal，通过命令uname -m查看。下载对应版本的vscode-server，根据Commit码和Notebook实例镜像架构下载。如果下载报错“Not Found”，请下载别的版本VS

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

xxxxx: Connection refused”如何解决？问题现象原因分析实例处于非运行状态。解决方法请前往ModelArts控制台查看实例是否处于运行状态，如果实例已停止，请执行启动操作，如果实例处于其他状态比如“错误”，请尝试先执行停止然后执行启动操作。待实例变为“运行中”后，再次执行远程连接。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

载数据集。在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-llama2-13b中创建文件夹training_data。利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构： obs://<buck

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
升级模型服务 - AI开发平台ModelArts

列表。选择“我的服务”页签。选择模型服务，单击操作列的“更多 > 服务升级”。在服务升级页面，配置升级参数。 “模型设置”：单击“更换”，选择原模型下的其他模型版本。其他参数不可修改，但可以了解原模型服务的配置。配置完成后，单击“提交”启动服务升级。父主题：管理我的服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingfac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
推理精度测试 - AI开发平台ModelArts

host：与起服务的host保持一致，比如起服务为0.0.0.0,host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小一些，比如16。在运行human_ev

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
推理精度测试 - AI开发平台ModelArts

host：与起服务的host保持一致，比如起服务为0.0.0.0，host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小一些，比如16。在运行human_ev

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

host：与起服务的host保持一致，比如起服务为0.0.0.0,host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小一些，比如16。在运行human_ev

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

可纠正ECC错误（单比特ECC错误），不影响业务。观测方式：nvidia-smi -a中查询到Volatile Correctable记录。 L2: 不可纠正ECC错误（多比特ECC错误），当次业务受损，重启进程可恢复。观测方式：nvidia-smi -a中查询到Volatile Uncorrectable记录。 L3:

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster

总条数： 1550

上一页
1
...
33
34
35
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备环境 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

删除APP - AI开发平台ModelArts

开发环境的应用示例 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

查询工作空间列表 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

查询Workflow Execution - AI开发平台ModelArts

如何在训练中加载部分训练好的参数？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

升级模型服务 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线