搜索_华为云

使用CES监控Lite Server资源 - AI开发平台ModelArts

Error硬件故障如果业务受到影响，转硬件换卡业务可能受到影响终止 Snt3P 300IDuo NPU: 需要重启实例 RebootVirtualMachine 提示当前故障很可能需要重启进行恢复在收集必要信息后，重启以尝试恢复重启可能中断客户业务 Snt3P 300IDuo

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

设施相比，可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份，保证在原数据被破坏或损坏的情况下可以恢复业务。开发环境故障恢复针对用户创建的Notebook计算实例，后台计算节点故障后会立即自动迁移到其他可用节点上，实例状态会自动恢复。针对数

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
ModelArts权限管理基本概念 - AI开发平台ModelArts

权限管理抽象可以做如下解读：用户访问任何云服务，均是通过标准的IAM权限体系进行访问控制。用户首先需要具备相关云服务的权限（根据您具体使用的功能不同，所需的相关服务权限亦有差异）。权限：用户使用ModelArts的任何功能，亦需要通过IAM权限体系进行正确权限授权。委托：Mode

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
查询资源池 - AI开发平台ModelArts

表16 scope 参数参数类型描述 scopeType String 业务类型。可选值如下： Train：训练任务 Infer：推理任务 Notebook：Notebook作业 state String 业务状态。可选值如下： Enabling：启动中 Enabled：已启动 Disabling：关闭中

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

权限管理抽象可以做如下解读：用户访问任何云服务，均是通过标准的IAM权限体系进行访问控制。用户首先需要具备相关云服务的权限（根据您具体使用的功能不同，所需的相关服务权限多寡亦有差异）。权限：用户使用ModelArts的任何功能，亦需要通过IAM权限体系进行正确权限授权。委托：Mo

帮助中心 > AI开发平台ModelArts > 产品介绍
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

“nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：方法1：可以根据ps

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

tions-serveraliveinterval-and-clientaliveinterval-in-sshd-config-d 对于业务有影响的需要进行长链接保持的场景，尽量将日志写在单独的日志文件中，将脚本后台运行，例如： nohup train.sh > output.log

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
给子账号配置文件夹级的SFS Turbo访问权限 - AI开发平台ModelArts

启用严格模式”。如果打开严格模式前没有为子账号配置过ModelArts权限，开启严格授权模式后可能会导致子账号无法使用ModelArts功能，请根据您的业务需求配置需要的ModelArts服务的权限（参见依赖和委托中ModelArts服务对应的依赖策略项）。操作步骤使用主用户账号登录管理控

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
查询资源池列表 - AI开发平台ModelArts

表17 scope 参数参数类型描述 scopeType String 业务类型。可选值如下： Train：训练任务 Infer：推理任务 Notebook：Notebook作业 state String 业务状态。可选值如下： Enabling：启动中 Enabled：已启动 Disabling：关闭中

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
Standard模型训练 - AI开发平台ModelArts

支持训练数据使用SFS Turbo文件系统进行数据挂载，训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中，并可被下游业务环节继续读取并处理，结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储，从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

成长地图由浅入深，带您玩转ModelArts 01 了解了解华为云ModelArts的产品架构、功能和基础知识，有助于您更准确地匹配实际业务，让AI开发变得更简单、更方便。产品介绍什么是ModelArts ModelArts功能介绍 AI开发基本流程介绍如何访问ModelArts

帮助中心 > AI开发平台ModelArts > 成长地图
在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

RC2_linux-aarch64.run # Set proxy to download internet resources（不同局点的Notebook代理可能不同，此处为举例，请以Notebook所在局点的实际代理为准，可以在JupyterLab的Terminal中，通过env|grep -i proxy命令查看）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
订阅Workflow - AI开发平台ModelArts

Gallery”。选择“资产集市 > MLOps > Workflow”，进入Workflow页面，该页面展示了所有共享的Workflow。搜索业务所需的免费Workflow，请参见查找和收藏资产。单击目标Workflow进入详情页面。在详情页面您可以查看Workflow的“描述”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
资源购买 - AI开发平台ModelArts
资源购买 - AI开发平台ModelArts

虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境，操作指导请参考创建虚拟私有云和子网。购买弹性云服务器ECS 如果您需要在服务器上部署相关业务，较之物理服务器，弹性云服务器的创建成本较低，并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施，并且这些基础设施是弹性的，可以

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

选择与当前控制台一致的区域。存储位置用来存储发布的资产。数据类型当前数据集的数据类型。选择数据集选择需要发布的数据集。许可证类型根据业务需求和数据集类型选择合适的许可证类型。单击许可证类型后面的感叹号可以查看许可证详情。说明：部分许可证网站说明地址是海外网站，用户可能会因网络限制无法访问。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

总条数： 335

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用CES监控Lite Server资源 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

给子账号配置文件夹级的SFS Turbo访问权限 - AI开发平台ModelArts

查询资源池列表 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

订阅Workflow - AI开发平台ModelArts

资源购买 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线