搜索_华为云

系统容器异常退出 - AI开发平台ModelArts

系统容器异常退出问题现象在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
动态挂载OBS并行文件系统 - AI开发平台ModelArts

动态挂载OBS并行文件系统什么是动态挂载OBS并行文件系统并行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，详细介绍可以参见并行文件系统。在ModelArts运行

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
Standard开发环境 - AI开发平台ModelArts

ts的Notebook开发环境中，调试和运行代码。对于使用本地IDE的开发者，由于本地资源限制，运行和调试环境大多使用团队公共搭建的资源服务器，并且是多人共用，这带来一定的环境搭建和维护成本。而ModelArts的Notebook的优势是即开即用，它预先装好了不同的AI引擎，

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
部署推理服务 - AI开发平台ModelArts

会有损失。如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
部署推理服务 - AI开发平台ModelArts

配置后重启服务生效。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
部署推理服务 - AI开发平台ModelArts

会有损失。如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
配置Lite Server存储 - AI开发平台ModelArts

在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通，因此保证SFS Turbo与Server服务器在同一区域即可。当创建文件系统后，您需要使用弹性裸金属服务器来挂载该文件系统，具体步骤请参考挂载NFS协议类型文件系统到云服务器（Linux）。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
创建开发环境实例 - AI开发平台ModelArts

String 存储类型。当前支持“obs”、“obsfs” 和“evs”，其中，obsfs类型当前仅支持部分专属资源池。若您需要挂载OBS并行文件系统，请提工单。 location 否 Object 存储位置，如果type为“obs”类型，该参数必须填写，如表5所示数据结构，如缺省值为“NULL”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
基于MaaS DeepSeek API和Cherry Studio快速构建个人AI智能助手 - AI开发平台ModelArts

Key获取新的访问密钥。选择要接入的模型服务。方式一：使用预置服务接入。在ModelArts Studio控制台左侧导航栏，单击“模型部署”。在“模型部署”页面的“预置服务”页签，单击DeepSeek服务右侧的“领取”。图1 领取免费Token额度在已领取额度的模型服务右侧，单击“调用”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理
基于MaaS DeepSeek API和Dify快速构建网站智能客服 - AI开发平台ModelArts

在“模型部署”页面的“预置服务”页签，单击DeepSeek服务右侧的“领取”。图1 领取免费Token额度当“领取”置灰时，表示该服务的免费额度已领取。您可以付费部署为我的服务使用，详情请参见使用MaaS部署模型服务。步骤二：搭建网站智能客服 Dify是一个能力丰富的开源AI应用开发平

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍对于普通企业来说，大模型开发不仅需要强大的算力，还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台（后续简称为MaaS服务）作为一个面向客户的大模型服务化平台，提供简单易用的模型开发工具链，支

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
克隆GitHub开源仓库文件到JupyterLab - AI开发平台ModelArts

Files按钮，打开文件上传窗口，选择左侧的进入GitHub开源仓库Clone界面。图1 上传文件图标图2 进入GitHub开源仓库Clone界面输入有效的GitHub开源仓库地址后会展示该仓库下的文件及文件夹，说明用户输入了有效的仓库地址，同时给出该仓库下所有的分支供选择，选择完成后单击“克隆”开始Clone仓库。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 Prometheus是一款开源监控工具，ModelArts支持Exporter功能，方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。本章节主要介绍如何通过Prometheus查看Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户在Notebook中创建的“子目录挂载”

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）

总条数： 2110

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

系统容器异常退出 - AI开发平台ModelArts

动态挂载OBS并行文件系统 - AI开发平台ModelArts

Standard开发环境 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

创建开发环境实例 - AI开发平台ModelArts

基于MaaS DeepSeek API和Cherry Studio快速构建个人AI智能助手 - AI开发平台ModelArts

基于MaaS DeepSeek API和Dify快速构建网站智能客服 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

克隆GitHub开源仓库文件到JupyterLab - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线