搜索_华为云

tensorboard显示502 bad gateway - AI开发平台ModelArts

启动tensorboard对应的summary目录过大，导致tensorboard加载summary导致OOM。处理方法检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
在Notebook中如何查看GPU使用情况 - AI开发平台ModelArts

发页面。在Jupyter页面的“Files”页签下，单击“New”，然后选择“Terminal”，进入到Terminal界面。执行如下命令查看GPU使用情况。 nvidia-smi 查看当前Notebook实例中有哪些进程使用GPU。方法一： python /modelar

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点 - AI开发平台ModelArts

目录，相当于/data和/work是同一层级，所以在JupyterLab中看不到。打开Terminal后，默认为~work目录，执行如下命令进入~data目录查看本地挂载路径： (PyTorch-1.8) [ma-user work]$cd (PyTorch-1.8) [ma-user

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 文件上传下载
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

Environment实例描述模型正常运行需要的环境，如使用的python版本、tensorflow版本等。请参见表2 source_job_id 否 String 来源训练作业的ID，模型是从训练作业产生的可填写，用于溯源；如模型是从第三方元模型导入，则为空，默认值为空。 source_job_version

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
断点续训练 - AI开发平台ModelArts

GLM3-6B的断点续训脚本glm3_base.sh，存放在“xxx-Ascend/llm_train/AscendSpeed/scripts/glm3”目录下。执行命令如下，进入AscendSpeed代码目录。xxx-Ascend请根据实际目录替换。 cd /home/ma-user/ws/xxx-Asc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
创建训练作业版本 - AI开发平台ModelArts

训练作业的代码目录。如：“/usr/app/”。应与boot_file_url一同出现，若填入model_id则app_url/boot_file_url和engine_id无需填写。 boot_file_url 是 String 训练作业的代码启动文件，需要在代码目录下。如：“/usr/app/boot

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
查看Notebook实例事件 - AI开发平台ModelArts

StartNotebookFailed 实例启动失败紧急 PullImageFailed 镜像拉取失败紧急 CreateKernelFailed conda命令不可用导致创建jupyter kernel失败（The jupyter launcher page does not contain the

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
SFT全参微调任务 - AI开发平台ModelArts

MBS、GBS、TP、PP、SEQ_LEN为非必填，有默认值。多机启动以GLM3-6B为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行，以下命令以双机为例。进入代码目录/home/ma-user/ws/xxx-Ascend/llm_train/AscendS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

将数据和checkpoint保存在/cache目录或者/home/ma-user/目录。检查checkpoint相关逻辑，保证历史checkpoint不会不断积压，导致/cache目录用完。如文件大小小于/cache目录大小并且文件数量超过50w，则考虑为inode不足或者触发了操作系统的文件索引相关问题。需要：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用AWQ量化工具转换权重 - AI开发平台ModelArts

5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
预训练数据处理 - AI开发平台ModelArts

1000 \ --tokenizer-type PretrainedFromHF 参数说明： ${work_dir}的路径指容器工作路径：如/home/ma-user/ws/ 。 - input：原始数据集的存放路径 - output-prefix：处理后的数据集保存路径+数据集名称前缀（例如:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
创建训练作业 - AI开发平台ModelArts

job_config object 算法配置信息，如启动文件等。 code_dir 否 String 算法的代码目录。如：“/usr/app/”。应与boot_file一同出现。 boot_file 否 String 算法的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

USE_VOCAB_PARALLEL=1 # 是否使用词表并行；默认值为1表示开启并行，取值为0表示关闭并行。对于词表较小的模型（如llama2系模型），关闭并行可以减少推理时延，对于词表较大的模型（如qwen系模型），开启并行可以减少显存占用，以提升推理吞吐量。 export USE_PFA_HIGH_PRECISION_MODE=1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在线服务处于运行中状态时，如何填写推理请求的request header和request body - AI开发平台ModelArts

body部分是需要进行预测的内容。 header的部分需要按照华为云的相关机制进行认证，body部分需要根据模型的要求如前处理脚本的要求，如自定义镜像的要求进行输入。处理方法 Header：在调用指南页签上最多可以获取到两个api地址，分别是支持IAM/AKSK认证的地址以及

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

安装报错 “xxx.whl”文件无法安装，需要您按照如下步骤排查：当出现“xxx.whl”文件无法安装，在启动文件中添加如下代码，查看当前pip命令支持的文件名和版本。 import pip print(pip.pep425tags.get_supported()) 获取到支持的文件名和版本如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Standard资源池节点故障定位 - AI开发平台ModelArts

Failed。 A050102 GPU 其他 nvidia-smi返回信息中包含ERR。通过nvidia-smi -a查询到ERR!，通常为硬件问题，如电源风扇等问题。 A050103 GPU 其他 nvidia-smi执行错误，超时或者不存在。执行nvidia-smi退出码非0。 A050104

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
查询训练作业参数详情 - AI开发平台ModelArts

(NAS) 训练本地挂载路径。如：“/home/work/nas”。 nas_share_addr String SFS Turbo (NAS) 共享路径。如：“192.168.8.150:/”。 nas_type String 当前仅支持 nfs。如：“nfs”。表4 data_source属性列表

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
查看AI应用的事件 - AI开发平台ModelArts

json中的swr_location字段后重试。异常自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。正常当前镜像构建任务状态为xxx。 The status

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 管理AI应用
查看ModelArts模型事件 - AI开发平台ModelArts

json中的swr_location字段后重试。异常自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。正常当前镜像构建任务状态为xxx。 The status

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型

总条数： 757

上一页
1
...
25
26
27
...
38
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

tensorboard显示502 bad gateway - AI开发平台ModelArts

在Notebook中如何查看GPU使用情况 - AI开发平台ModelArts

动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

SFT全参微调任务 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在线服务处于运行中状态时，如何填写推理请求的request header和request body - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

查看AI应用的事件 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线