搜索_华为云

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

n格式正确。其中“data_root”代表docker数据存储路径，“default-shm-size”代表容器启动默认分配的共享内容大小，不配置时默认为64M，可以根据需要改大，避免分布式训练时共享内存不足导致训练失败。图10 docker配置保存后，执行如下命令重启docker使配置生效。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
附录：微调训练常见问题 - AI开发平台ModelArts

Parameter分布到不同的NPU 增加卡数重新训练，未解决找相关人员定位。问题2：访问容器目录时提示Permission denied 解决方法：由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
部署推理服务 - AI开发平台ModelArts

${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-u

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
迁移过程使用工具概览 - AI开发平台ModelArts

模型自动转换评估工具Tailor 为了简化用户使用，ModelArts提供了Tailor工具，将模型转换、精度benchmark、性能benchmark和profiling采集工具集成到同一个工具中，极大简化了用户的使用流程。建议在迁移过程中使用Tailor工具替代下面列举的原始工具MS

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

大的值可能会影响性能，设置为18相对平衡。 NCCL_IB_RETRY_CNT 15 IB通信重试次数。建议设置为最大值15，减少IB通信失败的概率。父主题：创建训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
配置仪表盘查看指标数据 - AI开发平台ModelArts

cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Task-Detail-View.json 使用ModelArts提供的模板查看指标打开“DashBoards”，选择“New”>“Import”。导入DashBoards模板。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

85版本软件。下载链接：https://code.visualstudio.com/updates/v1_85。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
从OBS导入数据到数据集场景介绍 - AI开发平台ModelArts

从OBS目录导入数据。其他类型只支持Manifest文件导入数据集的方式。 ModelArts的AI Gallery中预置了大量的数据集，您可参见从AI Gallery下载数据集从AI Gallery下载使用预置的数据集至OBS目录中，并通过从OBS导入的方式，将数据集导入到ModelArts中。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

表名称：根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。 DLI的default队列只用作体验，不同账号间可能会出现抢占的情况，需进行资源排队，不能保证每次都可以得到资源执行相关操作。 DLI支持schema映射的功能，即导入的表的schema的字段名称可以不和数据集相同，但类型要保持一致。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── training_data #原始数据目录，需要用户手动创建，后续操作步骤中会提示 |── train-00000-of-00001-a09b74b3ef9c3b56

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

support onnx data type”，表示MindSpore暂不支持该算子。报错日志中搜到“Convert graph to om failed”，表示CANN模块进行图编译存在保存，需要结合CANN的报错日志和dump图进行具体分析。配置方式参考如下：打开DEBUG日志。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
SFT全参微调训练 - AI开发平台ModelArts

考表1按照实际需求修改。表1 必须修改的训练超参配置参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备资源准备权重准备代码准备镜像准备Notebook 父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
迁移环境准备 - AI开发平台ModelArts

迁移环境准备本文以弹性裸金属作为开发环境，弹性裸金属支持深度自定义环境安装，可以方便的替换驱动、固件和上层开发包，具有root权限，结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。开通裸金属服务器资源请见DevServer资源开通，在裸金属服务器上搭建迁移环境请见

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
训练作业重调度 - AI开发平台ModelArts

训练作业重调度当训练作业发生故障恢复时（例如进程级恢复、POD级重调度、JOB级重调度等），作业详情页面中会出现“故障恢复详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
推理精度测试 - AI开发平台ModelArts

more # information on how OpenAI sandboxes its code, see the accompanying paper. # Once you have read this disclaimer and taken appropriate precautions

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）

总条数： 2293

上一页
1
...
87
88
89
...
115
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

从OBS导入数据到数据集场景介绍 - AI开发平台ModelArts

从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

迁移环境准备 - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线