云服务器内容精选

  • 应用场景 ModelArts Studio大模型即服务平台(MaaS)的应用场景: 业界主流开源大模型覆盖全 MaaS集成了业界主流开源大模型,含Llama、Baichuan、Yi、Qwen模型系列,所有的模型均基于昇腾AI云服务进行全面适配和优化,使得精度和性能显著提升。开发者无需从零开始构建模型,只需选择合适的预训练模型进行微调或直接应用,减轻模型集成的负担。 零代码、免配置、免调优模型开发 平台结合与100+客户适配、调优开源大模型的行业实践经验,沉淀了大量适配昇腾,和调优推理参数的最佳实践。通过为客户提供一键式训练、自动超参调优等能力,和高度自动化的参数配置机制,使得模型优化过程不再依赖于手动尝试,显著缩短了从模型开发到部署的周期,确保了模型在各类应用场景下的高性能表现,让客户能够更加聚焦于业务逻辑与创新应用的设计。 资源易获取,按需收费,按需扩缩,支撑故障快恢与断点续训 企业在具体使用大模型接入企业应用系统的时候,不仅要考虑模型体验情况,还需要考虑模型具体的精度效果,和实际应用成本。 MaaS提供灵活的模型开发能力,同时基于昇腾云的算力底座能力,提供了若干保障客户商业应用的关键能力。 保障客户系统应用大模型的成本效率,按需收费,按需扩缩的灵活成本效益资源配置方案,有效避免了资源闲置与浪费,降低了进入AI领域的门槛。 架构强调高可用性,多数据中心部署确保数据与任务备份,即使遭遇故障,也能无缝切换至备用系统,维持模型训练不中断,保护长期项目免受时间与资源损耗,确保进展与收益。 大模型应用开发,帮助开发者快速构建智能Agents 在企业中,项目级复杂任务通常需要理解任务并拆解成多个问题再进行决策,然后调用多个子系统去执行。MaaS基于多个优质昇腾云开源大模型,提供优质Prompt模板,让大模型准确理解业务意图,分解复杂任务,沉淀出丰富的多个智能Agent,帮助企业快速智能构建和部署大模型应用。
  • 使用流程 表1 MaaS使用流程 步骤 操作 说明 相关文档 1 准备工作 在开始使用ModelArts Studio大模型即服务平台前,需要先准备好相关依赖资源,例如创建OBS桶、创建资源池等。 准备MaaS资源 2 模型创建 在ModelArts Studio大模型即服务平台的“模型广场”中选择大模型模板后,需要先创建自定义大模型,才能进行模型训练和推理,才能获得更适合特定领域或任务的大语言模型。 在MaaS中创建模型 3 模型调优 完成数据集的准备后,可以在ModelArts Studio大模型即服务平台开始模型调优。模型调优,即使用训练数据集和验证数据集训练模型。 使用MaaS调优模型 模型压缩 在ModelArts Studio大模型即服务平台支持对自定义模型进行模型压缩,以此提升推理服务性能、降低部署成本。 使用MaaS压缩模型 4 模型部署 ModelArts Studio大模型即服务平台支持将自定义模型部署到计算资源上,便于在“模型体验”或其他业务环境中可以调用该模型。 使用MaaS部署模型服务 5 模型体验 在ModelArts Studio大模型即服务平台完成模型部署后,可以“模型体验”调用该模型服务进行功能体验。 在MaaS体验模型服务 调用模型服务 在ModelArts Studio大模型即服务平台完成模型部署后,可以再其他业务环境中调用该模型服务进行预测。 调用MaaS部署的模型服务 免费体验 预置服务 ModelArts Studio大模型即服务平台给新用户分配了每个模型100万Tokens的免费调用额度,无需部署即可一键体验通义千问、ChatGLM等预置模型服务。 免费体验MaaS预置服务 - 应用体验 ModelArts Studio大模型即服务平台提供了MaaS应用实践中心,为具体的应用场景提供一整套解决方案。 在MaaS应用实践中心查看应用解决方案
  • 暂停和重启调优作业 只有作业“状态”处于“运行中”、“等待中”、“告警”和“创建中”,才支持暂停调优作业。 在ModelArts Studio左侧导航栏中,选择“模型调优”进入作业列表。 选择调优作业,单击操作列的“停止”,在弹窗中单击“确定”,暂停调优作业,作业“状态”变成“已停止”。 当调优作业处于“已停止”状态时,单击操作列的“继续”,在弹窗中单击“确定”,即可从最新的Checkpoint启动作业,作业“状态”变成“启动中”。
  • 查看调优作业详情 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型调优”进入作业列表。 单击作业名称,进入调优作业详情页面,可以查看作业详情和日志。 “详情”:可以查看作业的基本信息,包括作业、模型、数据等设置信息。 “日志”:可以搜索、查看和下载作业日志。 查看loss:当作业进入训练流程之后,会按照Step进行loss打印,因此在日志中搜索关键字段“lm loss”即可查看loss。 获取训练吞吐数据:在打印的loss日志中搜索关键字段“elapsed time per iteration”获取每步迭代耗时,总的Token数可以用日志中的“global batch size”和“SEQ_LEN”相乘获得,训练的每卡每秒的吞吐=总Token数÷每步迭代耗时÷总卡数。
  • 支持的数据集格式 创建模型调优任务时,支持选择MOSS、Alpaca和ShareGPT这三种数据集格式。 MOSS:用于存储和交换机器学习模型数据的数据集格式,文件类型为jsonl。 Alpaca:用于训练语言模型的数据集格式,文件类型为jsonl。 ShareGPT:用于分享GPT模型对话结果的数据集格式,文件类型为jsonl。 请按数据集格式要求准备数据,否则会导致调优作业失败。 对于csv、xlsx文件,平台会将其转为Alpaca格式或MOSS格式,具体请参见表2。 表2 模型与数据集格式说明 模型 调优类型 数据集格式(jsonl) 数据集格式(xlsx和csv) Qwen2.5-72B及其余模型系列(权重格式为Megatron的模型,具体请参见表7) 全参微调、LoRA微调 MOSS、Alpaca、ShareGPT MOSS Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K 全参微调、LoRA微调 Alpaca、ShareGPT Alpaca Qwen2.5-14B 增量预训练 Alpaca 不支持 MOSS数据集格式:jsonl格式 MOSS数据集格式仅支持微调。 jsonl的一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条。数据集示例如下,单轮对话也可以复用此格式。您可以单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。 {"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}} "conversation_id":样本编号。 "chat":多轮对话的内容。 "turn_n":表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。 Alpaca数据集格式 微调:jsonl格式 { "instruction": "计算这些物品的数量之和。 ", "input": "输入:汽车 - 3,衣服 - 100,书 - 20。", "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"} 增量预训练: [ {"text": "document"}, {"text": "document"}] ShareGPT数据集格式 ShareGPT数据集格式仅支持微调。 ShareGPT格式支持更多的角色种类,例如human、gpt、observation、function等。它们构成一个对象列表呈现在conversations列中。 注意:其中human和observation必须出现在奇数位置,gpt和function必须出现在偶数位置。 示例如下: [ { "conversations": [ { "from": "human", "value": "human instruction" }, { "from": "function_call", "value": "tool arguments" }, { "from": "observation", "value": "tool result" }, { "from": "gpt", "value": "model response" } ], "system": "system prompt (optional)", "tools": "tool description (optional)" }] csv、xlsx csv和xlsx格式数据集仅支持微调。 表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。 conversation_id:对话ID,可以重复,但必须是正整数。如果有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。 human:对话输入,内容不能为空。 assistant:对话输出,内容不能为空。 表3 表格示例 conversation_id human assistant 1 text text
  • 模型调优时长估算 调优时长表示调优作业的“状态”处于“运行中”的耗时。由于训练吞吐有上下限,因此计算出的调优时长是个区间。 计算公式:调优时长 = 经验系数 x Iterations ÷(卡数 x 实例数 x 吞吐)+ 前后处理时间 单位:小时 表5 参数说明 参数 说明 经验系数 经验系数与模型训练迭代过程中处理的序列长度和批次大小有关。 Qwen2-72B-1K模型的经验系数 = 512 x 1024 ÷ 3600 ≈ 146 其他模型的经验系数 = 32 x 4096 ÷ 3600 ≈ 36 Iterations 创建调优任务时计算得出的“迭代步数/Iterations”超参值。 卡数 和创建调优任务时选择的“规格”相关,例如,“规格”选择的是“Ascend: 2*ascend-snt9b2(64GB) ”,*号前面的数字是2,则卡数就是2。 实例数 创建调优任务时设置的“节点个数”。 吞吐 吞吐表示每秒每卡处理的Tokens数量,吞吐值的上下限可以参考表6获取。 单位:tokens/s/p 前后处理时间 调优时长还包括训练前的数据预处理、训练后格式转换等调优之外的耗时,统称为前后处理时间。 调优任务的前后处理时间和模型参数量相关,不同参数量的时间估值如下: 72B : 1.35小时 32B:0.58小时 14B:0.25小时 7B:0.15小时 表6 各模型的吞吐数据参考 模型名称 调优类型 吞吐下限取整 吞吐上限取整 Baichuan2-13B 全参微调 1200 1600 LoRA微调 1300 1800 ChatGLM3-6B 全参微调 2000 2700 LoRA微调 2300 3100 GLM-4-9B 全参微调 1800 2100 LoRA微调 2400 2800 Llama2-13B 全参微调 1300 1800 LoRA微调 1400 1900 Llama2-70B 全参微调 300 400 LoRA微调 400 500 Llama2-7B 全参微调 3100 4200 LoRA微调 3500 4700 Llama3-70B 全参微调 300 400 LoRA微调 300 500 Llama3-8B 全参微调 2100 2800 LoRA微调 2300 3100 Qwen-14B 全参微调 1200 1600 LoRA微调 1400 1900 Qwen-72B 全参微调 300 400 LoRA微调 300 500 Qwen-7B 全参微调 2100 2900 LoRA微调 2200 3000 Qwen1.5-14B 全参微调 1300 1700 LoRA微调 1400 1800 Qwen1.5-32B 全参微调 600 800 LoRA微调 700 900 Qwen1.5-72B 全参微调 300 400 LoRA微调 300 500 Qwen1.5-7B 全参微调 2200 3000 LoRA微调 2600 3600 Qwen2-0.5B 全参微调 12800 17300 LoRA微调 12800 17300 Qwen2-1.5B 全参微调 7300 9800 LoRA微调 7300 9900 Qwen2-72B 全参微调 300 300 LoRA微调 300 400 Qwen2-72B-1K 全参微调 300 300 LoRA微调 300 400 Qwen2-7B 全参微调 2300 3200 LoRA微调 2600 3500 Qwen2.5-72B 全参微调 100 120 LoRA微调 280 330 Qwen2.5-32B 全参微调 340 410 LoRA微调 480 570 Qwen2.5-14B 全参微调 1120 1320 LoRA微调 1410 1660 增量预训练 1120 1320 Qwen2.5-7B 全参微调 2459 2890 LoRA微调 3180 3750 Qwen2.5-72B-1K 全参微调 250 300 LoRA微调 340 400 Qwen2-VL-7B 全参微调 1500 1770 LoRA微调 2100 2480
  • 约束限制 表1列举了支持模型调优的模型,不在表格里的模型不支持使用MaaS调优模型。 表1 支持模型微调的模型 模型名称 全参微调 LoRA微调 增量预训练 Baichuan2-13B √ √ x ChatGLM3-6B √ √ x GLM-4-9B √ √ x Llama2-13B √ √ x Llama2-70B √ √ x Llama2-7B √ √ x Llama3-70B √ √ x Llama3-8B √ √ x Qwen-14B √ √ x Qwen-72B √ √ x Qwen-7B √ √ x Qwen1.5-14B √ √ x Qwen1.5-32B √ √ x Qwen1.5-72B √ √ x Qwen1.5-7B √ √ x Qwen2-72B √ √ x Qwen2-72B-1K √ √ x Qwen2-7B √ √ x Qwen2-1.5B √ √ x Qwen2-0.5B √ √ x Qwen2.5-72B √ √ x Qwen2.5-32B √ √ x Qwen2.5-14B √ √ √ Qwen2.5-7B √ √ x Qwen2.5-72B-1K √ √ x Qwen2-VL-7B √ √ x
  • 访问模型广场 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,单击“模型广场”。 在“模型广场”页面的目标模型区域,单击“立即使用”进入模型详情页。 在模型详情页可以查看模型的介绍、基本信息和版本信息。 在模型详情页右上角,单击“调优”、“压缩”或“部署”,可以直接使用模型进行训推。 当按钮置灰时,表示模型不支持该任务。
  • 模型介绍 表1列举了ModelArts Studio大模型即服务平台支持的模型清单,模型详细信息请查看界面介绍。 表1 模型广场的模型系列介绍 模型系列 模型类型 应用场景 支持语言 GLM-4 文本生成 对话问答、长文本推理、代码生成 中文、英文 ChatGLM3 文本生成 对话问答、数学推理、代码生成 中文、英文 Yi 文本生成 代码生成、数学推理、对话问答 中文、英文 通义千问1.5 文本生成 代码生成、数学推理、对话问答 英文 通义千问 文本生成 对话问答、智能创作、文本摘要、翻译、代码生成、数学推理 中文、英文 通义千问2 文本生成 多语言处理、数学推理、对话问答 英文 通义千问2.5 文本生成 多语言处理、数学推理、对话问答 中文、英文 Deepseek-Coder 文本生成 对话问答、文本推理 中文、英文 通义千问2-VL 图像理解 图像理解、对话问答 中文、英文 模型分为量化模型和非量化模型,其中,量化模型又包括SmoothQuant-W8A8和AWQ-W4A16两种。 AWQ-W4A16量化模型可以由非量化模型压缩后生成,也可以直接使用开源AWQ权重。 SmoothQuant-W8A8量化模型只能由非量化模型压缩生成。 ModelArts Studio大模型即服务平台已预置非量化模型与AWQ-W4A16量化模型的模型模板。 非量化模型可以支持调优、压缩、部署等操作。 量化模型仅支持部署操作。当需要获取SmoothQuant-W8A8量化模型时,则可以通过对非量化模型进行模型压缩获取。
  • 步骤1:获取API Key 在调用MaaS部署的模型服务时,需要填写API Key用于接口的鉴权认证。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“鉴权管理”。 在“鉴权管理”页面,单击“创建API Key”,填写描述信息后,单击“确认”会返回“您的密钥”,请复制保存密钥,单击“关闭”后将无法再次查看密钥。 最多支持创建5个密钥,密钥只会在新建后显示一次,请妥善保存。 当密钥丢失将无法找回,请新建API Key获取新的访问密钥。
  • 常见问题 首次使用ModelArts如何配置授权? 直接选择“新增委托”中的“普通用户”权限即可,普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。 如何获取访问密钥AK/SK? 如果在其他功能(例如访问模型服务等)中使用到访问密钥AK/SK认证,获取AK/SK方式请参考如何获取访问密钥章节。 如何删除已有委托列表下面的委托名称? 图12 已有委托 需要前往 统一身份认证 服务 IAM 控制台的委托页面删除。 图13 统一身份认证 进入ModelArts控制台的某个页面时,为什么会提示权限不足? 图14 页面提示权限不足 可能原因是用户委托权限配置不足或模块能力升级,需要更新授权信息。根据界面操作提示追加授权即可。
  • 场景描述 MaaS服务的访问授权是通过ModelArts统一管理的,当用户已拥有ModelArts的访问授权时,无需单独配置MaaS服务的访问授权,当用户没有ModelArts的访问授权时,则需要先完成配置才能正常使用MaaS服务。 ModelArts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是一个“委托”的过程。用户授权ModelArts再代表自己访问特定的云服务,以完成其在ModelArts平台上执行的AI计算任务。 ModelArts提供了一键式自动授权功能,用户可以在ModelArts的权限管理功能中,快速完成委托授权,由ModelArts为用户自动创建委托并配置到ModelArts服务中。 本章节主要介绍一键式自动授权方式。一键式自动授权方式支持给IAM子用户、联邦用户(虚拟IAM用户)、委托用户和所有用户授权。
  • 应用中心介绍 “MaaS应用实践中心”提供基于行业客户应用场景的AI解决方案。MaaS提供的模型服务和华为云各AI应用层构建工具之间相互连通,通过灵活的组合方案,来帮助客户快速解决模型落地应用时所面临的业务及技术挑战。 MaaS应用实践中心结合 KooSearch 企业搜索服务、盘古数字人大脑和Dify,为具体的客户应用场景提供一整套解决方案。 KooSearch 企业搜索 服务:基于在MaaS开源大模型部署的模型API,搭建企业专属方案、LLM驱动的语义搜索、多模态搜索增强。 盘古数字人大脑:基于在MaaS开源大模型部署的模型API,升级智能对话解决方案,含智能客服、数字人。 Dify:支持自部署的应用构建开源解决方案,用于Agent编排、自定义工作流。
  • 约束与限制 华为云账号 只有华为云账号可以使用委托授权,可以为当前账号授权,也可以为当前账号下的所有IAM用户授权。 多个IAM用户或账号,可使用同一个委托。 一个账号下,最多可创建50个委托。 对于首次使用ModelArts的新用户,请直接新增委托即可。一般用户新增普通用户权限即可满足使用要求。如果有精细化权限管理的需求,可以自定义权限按需设置。 IAM用户 如果已获得委托授权,则可以在权限管理页面中查看到已获得的委托授权信息。 如果未获得委托授权,当打开“访问授权”页面时,ModelArts会提醒您当前用户未配置授权,需联系此IAM用户的管理员账号进行委托授权。
  • 修改授权的权限范围 在查看授权详情时,如果想要修改授权范围,可以在权限详情页单击“IAM查看全部委托权限”。 图10 去IAM修改委托权限 进入IAM控制台的“委托”页面。找到对应的委托信息,修改该委托的基本信息,主要是持续时间。“持续时间”可以选择永久、1天,或者自定义天数,例如 30天。 图11 手动创建的委托 在“授权记录”页面单击“授权”,勾选要配置的策略,单击“下一步”设置最小授权范围,单击“确定”,完成授权修改。 设置最小授权范围时,可以选择指定的区域,也可以选择所有区域,即不设置范围。