搜索_华为云

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

重新进行安装需要的版本。 import os os.system("pip uninstall -y numpy") os.system('rm -rf /home/work/anaconda/lib/python3.6/site-packages/numpy/') os.system("pip

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
托管镜像到AI Gallery - AI开发平台ModelArts

如果填写了“中文名称”，则资产发布后，在镜像页签上会显示该“中文名称”。描述填写资产简介，镜像发布后将作为副标题显示在镜像页签上，方便用户快速了解资产。支持0~90个字符，请勿在描述中输入涉政、迷信、违禁等相关敏感词，否则发布审核无法通过。创建完成后，跳转至镜像详情页。上传镜像文件在镜像详情页，选择“镜像文件”页签。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA initialization:

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

如何将在ModelArts中训练好的模型下载或迁移到其他账号？通过训练作业训练好的模型可以下载，然后将下载的模型上传存储至其他账号对应区域的OBS中。获取模型下载路径登录ModelArts管理控制台，在左侧导航栏中选择“模型训练 > 训练作业”，进入“训练作业”列表。在训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
发布数据集到AI Gallery - AI开发平台ModelArts

许可证必填项，根据业务需求选择合适的许可证类型。描述必填项，填写资产简介，数据集发布后将显示在数据集页签上，方便用户快速了解资产。支持1~90个字符，请勿在描述中输入涉政、迷信、违禁等相关敏感词，否则发布审核无法通过。可见范围 “所有用户可见”：表示公开资产，所有用户都可以查看该资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
Chunked Prefill - AI开发平台ModelArts

该特性不能和PD分离、Prefix Cache、KV Cache量化特性、multi-lora特性同时使用。 LLama系列、Qwen系列模型支持此特性。 Chunked Prefill参数配置 Chunked Prefill的依赖参数如下表所示。表1 依赖参数说明配置项取值类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

Error 802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

exec format error”。这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的，例如使用的是x86的镜像却标记的是arm的系统架构。可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
eagle投机小模型训练 - AI开发平台ModelArts

outdir：生成的训练data 地址 end_num：生成的data总条数 used_npus：使用哪些NPU model_type：使用模型类型目前支持 qwen2 llama1 llama2 及 llama3，其中llama1、2及chat都填写llama model_name：模型地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
附录：指令微调训练常见问题 - AI开发平台ModelArts

packages that were not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /hom

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
无法导入模块 - AI开发平台ModelArts

path”中，再导入： import os import sys # __file__为获取当前执行脚本main.py的绝对路径 # os.path.dirname(__file__)获取main.py的父目录，即project_dir的绝对路径 current_path = os.path.dirname(__file__)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
eagle投机小模型训练 - AI开发平台ModelArts

outdir：生成的训练data 地址 end_num：生成的data总条数 used_npus：使用哪些NPU model_type：使用模型类型目前支持 qwen2 llama1 llama2 及 llama3，其中llama1、2及chat都填写llama model_name：模型地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

outdir：生成的训练data 地址 end_num：生成的data总条数 used_npus：使用哪些NPU model_type：使用模型类型目前支持 qwen2 llama1 llama2 及 llama3，其中llama1、2及chat都填写llama model_name：模型地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
管理训练容器环境变量 - AI开发平台ModelArts

Library）环境变量 OBS环境变量 PIP源环境变量 API网关地址环境变量作业元信息环境变量约束限制为了避免新设置的环境变量与系统环境变量冲突，而引起作业运行异常或失败，请在定义自定义环境变量时，不要使用“MA_”开头的名称。如何修改环境变量用户可以在创建训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
更新训练作业参数 - AI开发平台ModelArts

不可与data_url同时出现。 type 否 String 数据集类型。可选值为“obs”、“dataset”。obs与dataset不可同时出现。 data_url 否 String OBS的桶路径，不可与dataset_id/dataset_version同时出现。表4 parameter属性列表

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。发起维修流程。 NT_NPU_ECC_COUNT NPU 显存 NPU ECC次数达到维修阈值。 NPU的HBM总的多Bit Ecc隔离地址记录达到64个。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
重置节点后无法正常使用？ - AI开发平台ModelArts

原因分析在ModelArts侧进行节点重置后，modelarts-os会向节点添加准入污点，进行节点准入，而因为集群volcano没有污点容忍，且集群内只有一个节点，导致volcano无法启动，进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动，使得污点无法被自动清理。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster

总条数： 2005

上一页
1
...
92
93
94
...
101
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

托管镜像到AI Gallery - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

发布数据集到AI Gallery - AI开发平台ModelArts

Chunked Prefill - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

更新训练作业参数 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线