搜索_华为云

订阅免费模型 - AI开发平台ModelArts

图4 安装技能-40 取消或找回订阅的免费模型当不需要使用AI Gallery中订阅的模型时，可以取消订阅该模型。取消订阅后，ModelArts管理控制台“AI应用管理 > AI应用 > 我的订阅”列表中将不再展示该模型；当需要再次使用该模型时，可以找回订阅，ModelArts管理控制台“AI应用管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
MaaS使用场景和使用流程 - AI开发平台ModelArts

在开始使用ModelArts Studio大模型即服务平台前，需要先准备好相关依赖资源，例如创建OBS桶、创建资源池等。准备MaaS资源 2 模型创建在ModelArts Studio大模型即服务平台的“模型广场”中选择大模型模板后，需要先创建自定义大模型，才能进行模型训练和推理，才能获得更适合特定领域或任务的大语言模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
准备镜像环境 - AI开发平台ModelArts

images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
创建智能标注作业 - AI开发平台ModelArts

“预标注”。“预标注”表示选择用户模型管理里面的模型，选择模型时需要注意模型类型和数据集的标注类型相匹配。预标注结束后，如果标注结果符合平台定义的标准标注格式，系统将进行难例筛选，该步骤不影响预标注结果。选择模型及版本 “我的模型”。您可以根据实际需求选择您的模型。您需要在目标模型的左侧单击下拉三角标，选择合适的版本。您的模型导入参见创建模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

ARY_PATH中的cuda优先级，需要手动调整下。举例：如果cuda只兼容cuda-9.1，查询到LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:/usr/local/cuda-9.1/lib64 需要手动调整优先级，执行命令export

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
准备镜像环境 - AI开发平台ModelArts

images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
Notebook Cache盘告警上报 - AI开发平台ModelArts

告警，在使用时很容易超过限制，并直接重启Notebook实例。重启后多种配置重置，会导致用户数据丢弃，环境丢失，造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警，并将数据上报至AOM平台。配置流程填写告警基本信息设置告警规则监控对象指标配置告警触发条件设置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

地址。 “启动命令”需要适配sshd启动脚本，如下所示： bash ${MA_JOB_DIR}/demo-code/start_sshd.sh && your custom command 命令中的“your custom command”表示训练作业中需要执行的其他自定义命令。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

obs:object:PutObjectAcl permission.）。图2 复制模型文件失败原因分析由于ModelArts的使用权限依赖OBS服务的授权，需要为用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的，如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练的数据集预处理说明 - AI开发平台ModelArts

get_tokenized_data()中调用self._filter方法处理每一个sample self._filter在基类中未定义，需要各个子类针对目标数据集格式进行实现所有handler依据实际数据集实现self._filter方法，处理原始数据集中的单一sample，其余方法复用基类的实现。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

get_tokenized_data()中调用self._filter方法处理每一个sample self._filter在基类中未定义，需要各个子类针对目标数据集格式进行实现所有handler依据实际数据集实现self._filter方法，处理原始数据集中的单一sample，其余方法复用基类的实现。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
准备镜像环境 - AI开发平台ModelArts

images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

errorMessage:None reason:Service Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FI

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
训练网络迁移总结 - AI开发平台ModelArts

精度问题根因和表现种类很多，会导致问题定位较为复杂，一般还是需要GPU上充分稳定的网络（包含混合精度）再到NPU上排查精度问题。常见的精度调测手段，包含使用全精度FP32，或者关闭算子融合开关等，先进行排查。对于精度问题，系统工程人员需要对算法原理有较深入的理解，仅从工程角度分析有时候会非

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
上传算法至SFS - AI开发平台ModelArts

requirements.txt内容如下 timm==0.4.12 termcolor==1.1.0 yacs==0.1.8 准备run.sh文件中所需要的obs文件路径。准备imagenet数据集的分享链接勾选要分享的imagenet21k_whole数据集文件夹，单击分享按钮，选择分

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker exec -it ${container_name} bash 上传代码和数据到宿主机时使用的是root用户，此处需要执行如下命令统一文件属主为ma-user用户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 准备工作
训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count' - AI开发平台ModelArts

如果是运行单卡模式，在训练脚本中加入export ASCEND_RT_VISIBLE_DEVICES=0（指定 0 号卡对当前进程可见）。多卡环境模式需要运行DDP并行模式。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导 > 常见问题

总条数： 1550

上一页
1
...
66
67
68
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

订阅免费模型 - AI开发平台ModelArts

MaaS使用场景和使用流程 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

创建智能标注作业 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

上传算法至SFS - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count' - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线