搜索_华为云

场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

表2 操作任务流程说明阶段任务说明准备工作准备环境本教程案例是基于ModelArts Lite k8s Cluster运行的，需要购买并开通k8s Cluster资源。准备代码准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档和本文档配套的模型训练文档请参考《主流开源大模型基于Lite Cluster适配PyTorch训练指导》。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
重置节点后无法正常使用？ - AI开发平台ModelArts

解决方案二（默认全部使用volcano调度器）： CCE页面上配置中心修改默认调度器为kube-scheduler。删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts上重置节点。 CCE页面上配置中心修改默认调度器为volcano。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
监控Lite Cluster资源 - AI开发平台ModelArts

监控Lite Cluster资源使用AOM查看Lite Cluster监控指标使用Prometheus查看Lite Cluster监控指标父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
执行训练任务【旧】 - AI开发平台ModelArts

【GBS、MBS、TP、PP】参数值可参考模型推荐参数、NPU卡数设置。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。 Step2 创建训练任务创建训练作业，并自定义名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
释放Lite Cluster资源 - AI开发平台ModelArts

释放Lite Cluster资源针对不再使用的Lite Cluster资源，可以释放资源，停止计费相关介绍请见停止计费。 Lite Cluster资源池资源释放后不可恢复，请谨慎操作。退订包年/包月的Lite Cluster资源登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档和本文档配套的模型训练文档请参考《主流开源大模型基于Lite Cluster适配PyTorch训练指导》。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档和本文档配套的模型训练文档请参考《主流开源大模型基于Lite Cluster适配PyTorch训练指导》。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。模型软件包结构说明本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
推理性能测试 - AI开发平台ModelArts

--trust-remote-code --backend：服务类型，如tgi，vllm，mindspore、openai。 --host ${docker_ip}：服务部署的IP地址，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --dataset：数据集路径，推荐使用hu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

--trust-remote-code --backend：服务类型，如tgi，vllm，mindspore、openai。 --host ${docker_ip}：服务部署的IP地址，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --dataset：数据集路径，推荐使用hu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
管理Lite Cluster资源池 - AI开发平台ModelArts

节点池管理操作请参见管理Lite Cluster节点池节点管理操作请参见管理Lite Cluster节点扩缩容Lite Cluster资源池操作请参见扩缩容Lite Cluster资源池升级Lite Cluster资源池驱动操作请参见升级Lite Cluster资源池驱动升级Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。模型软件包结构说明本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
Lite Cluster资源管理介绍 - AI开发平台ModelArts

扩缩容Lite Cluster资源池：当Cluster资源池创建完成，使用一段时间后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts提供了扩缩容功能，用户可以根据自己的需求动态调整。升级Lite Cluster资源池驱动：当资

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

服务部署失败，报错No Module named XXX 问题现象服务部署失败，报错：No Module named XXX 原因分析 No Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
免费资产和商用资产 - AI开发平台ModelArts

免费资产无需支付费用，只需要支付在使用过程中消耗的硬件资源，硬件资源费用将根据实际使用情况由华为云ModelArts等管理控制台向使用方收取。当前支持免费分享和订阅的资产类型有：Notebook代码样例、数据集、算法、模型、镜像。商用资产由华为云云商店提供卖家发布和买家购买相关功能，AI Gallery仅提供列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除
Lite Cluster资源使用 - AI开发平台ModelArts

Lite Cluster资源使用在Lite Cluster资源池上使用Snt9B完成分布式训练任务在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练在Lite Cluster资源池上使用Snt9B完成推理任务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

所有承载ModelArts服务的主机部署了主机安全防护产品。包括不限于华为自研HSS或计算安全平台CSP。 ModelArts服务部署了漏洞扫描服务并自行进行例行扫描，能快速发现漏洞并能及时修复。 ModelArts服务通过统一的安全管控平台对云上资源进行安全运维。 ModelArts服务部署了态势感知服务

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全

总条数： 1390

上一页
1
...
16
17
18
...
70
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

场景介绍 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

监控Lite Cluster资源 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

释放Lite Cluster资源 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

免费资产和商用资产 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

Lite Cluster资源使用 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线