华为云用户手册

  • 场景描述 模型压缩是指将高比特浮点数映射到低比特量化空间,从而减少显存占用的资源,降低推理服务时延,提高推理服务吞吐量,并同时减少模型的精度损失。模型压缩适用于追求更高的推理服务性能、低成本部署以及可接受一定精度损失的场景。 ModelArts Studio大模型即服务平台当前支持SmoothQuant-W8A8和AWQ-W4A16两种压缩策略。 表1 压缩策略的适用场景 压缩策略 场景 SmoothQuant-W8A8 长序列的场景 大并发量的场景 AWQ-W4A16 小并发量的低时延场景 更少推理卡数部署的场景
  • 权重校验 创建模型时,开启权重校验后,平台会自动创建一个权重校验的任务,在模型详情页的作业记录列表可以查看权重校验任务。 图1 查看权重校验任务 当状态显示运行失败时,鼠标悬停在状态即可查看失败信息,根据失败信息处理问题。常见的权限校验失败信息及其处理建议请参见表2。 表2 权重校验常见的失败信息 失败信息 信息解释 处理建议 Unknown error, please contact the operation and maintenance personnel or check the log to locate the specific problem. 未知错误。 查看日志定位处理问题,或者联系技术支持。 Backend model template selection error (metadata error). 后台模型模板选择错误。 查看日志定位处理问题,或者联系技术支持。 Failed to read standard config.json in the background. 后台读取标准config.json失败。 查看日志定位处理问题,或者联系技术支持。 Failed to read generation_config.json. generation_config.json内容格式错误。 检查“generation_config.json”文件中的内容是否为json格式。 The value of do_sample is not set to true in generation_config.json, which is inconsistent with the configured sampling parameters such as temperature, top_p, top_k etc. 在generation_config.json中没有将do_sample的值设置为true,与配置的temperature、top_p、top_k等采样参数矛盾。 将“generation_config.json”文件中的“do_sample”的值设置为“true”。 Failed to read user config.json. config.json不存在或内容不符合json格式。 检查“config.json”文件是否存在,或者是内容是否为json格式。 The quantization_config field is missing in config.json, please check whether it is awq quantization weight. config.json中缺少quantization_config字段,请检查是否为awq量化权重。 检查权重和模型模板是否匹配。 There is an extra quantization_config field in config.json. Please check whether it is a non-quantized weight. config.json中多出quantization_config字段,请检查是否为非量化权重。 检查权重和模型模板是否匹配。 Key fields describing the model structure are missing from config.json, or their values are inconsistent with standard open source. config.json中缺少描述模型结构的关键字段,或其值与标准开源不一致。 检查“config.json”文件中的配置是否与模型官方一致。 Error loading tokenizer in transformers. transformers加载tokenizer出错。 检查词表文件是否正确。 Error loading weights in transformers. transformers加载权重出错。 检查权重文件是否正确。
  • 查看我的模型详情 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“我的模型”进入模型列表。 单击模型名称,进入模型详情页面,可以查看模型“基本信息”和“作业记录”。 基本信息:可以查看模型名称、ID、来源模型等信息。 作业记录:可以查看该模型被用于哪些作业类型,以及当前作业的状态等信息。
  • 删除我的模型 删除操作无法恢复,请谨慎操作。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“我的模型”进入模型列表。 在模型列表,单击模型名称,进入模型详情页面,查看模型的“作业记录”。 如果作业记录为空,则直接执行下一步。 如果作业记录存在作业,则先删除所有作业,再执行下一步。 当模型存在作业记录会删除失败。 在模型详情页,单击右上角的“删除”,在弹窗中输入“DELETE”,单击“确定”,删除模型。
  • 创建我的模型 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 进入创建模型页面。 方式一:在ModelArts Studio左侧导航栏中,选择“我的模型”进入模型列表,单击“创建模型”弹出创建模型页面。 方式二:在ModelArts Studio左侧导航栏中,选择“模型广场”,在模型广场选择模型并单击“立即使用”进入模型详情页,单击“创建模型”弹出创建模型页面。 在创建模型页面,配置参数。 表1 创建模型 参数 说明 来源模型 当从“我的模型”进入创建模型页面时,单击选择基础模型完成模型选择。 当从“模型广场”进入创建模型页面时,此处默认呈现选择的模型。 当选择模型后,支持单击“重新选择”更改模型。 模型名称 自定义模型名称。 支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、下划线(_)、中划线(-)和(.)。 描述 模型简介。支持100字符。 权重设置与词表 默认选择“使用推荐权重”,支持选择“自定义权重”。 “使用推荐权重”:使用平台推荐的权重文件,可提高模型的训练、压缩、部署和调优等服务的使用效率。 “自定义权重”:使用用户自定义的权重文件,需要先将权重文件上传至OBS桶中。且权重文件必须满足约束限制。 权重文件指的是模型的参数集合。 说明: 百川系列模型只支持自定义权重。 选择自定义权重路径 当“权重设置与词表”选择“自定义权重”时,需要选择存放模型权重文件的OBS路径,必须选择到模型文件夹。 权重校验 当“权重设置与词表”选择“自定义权重”时,需要选择是否开启权重文件校验。默认是开启的。 当开启权重校验时,平台会对OBS中的权重文件进行校验,确认其是否满足规范。权限校验常见的失败情况及其处理建议请参见权重校验。 当关闭权重校验时,则不进行校验,创建模型可能会因为权重文件不合规而失败。 参数配置完成后,单击“创建”,创建自定义模型。 在模型列表,当模型“状态”变成“创建成功”时,表示模型创建完成。
  • 约束限制 用于生成专属模型的模型权重文件需要满足Hugging Face上的对应模型的文件格式要求。 模型权重文件夹下包括权重类文件、词表类文件和配置类文件。 可以使用transformers的from_pretrained方法对模型权重文件夹进行加载。 具体请参见Hugging Face官方文档Documentations。 当选择ChatGLM3-6B、GLM-4-9B、Qwen-7B、Qwen-14B和Qwen-72B模型框架时(模型名字必须一致),需要修改权重配置才能正常运行模型,操作步骤请参见修改权重配置。
  • 模型介绍 表1列举了ModelArts Studio大模型即服务平台支持的模型清单,模型详细信息请查看界面介绍。 表1 模型广场的模型系列介绍 模型系列 模型类型 应用场景 支持语言 GLM-4 文本生成 对话问答、长文本推理、代码生成 中文、英文 ChatGLM3 文本生成 对话问答、数学推理、代码生成 中文、英文 百川2 文本生成 对话问答、数学推理、代码生成、翻译 中文、英文 Llama 2 文本生成 对话问答、智能创作、文本摘要 英文 Llama 3 文本生成 对话问答、智能创作、文本摘要 英文 Llama 3.1 文本生成 对话问答、智能创作、文本摘要 英文 Yi 文本生成 代码生成、数学推理、对话问答 中文、英文 通义千问1.5 文本生成 代码生成、数学推理、对话问答 英文 通义千问 文本生成 对话问答、智能创作、文本摘要、翻译、代码生成、数学推理 中文、英文 通义千问2 文本生成 多语言处理、数学推理、对话问答 英文 通义千问2.5 文本生成 多语言处理、数学推理、对话问答 中文、英文 Deepseek Coder 文本生成 对话问答、文本推理 中文、英文 模型分为量化模型和非量化模型,其中,量化模型又包括SmoothQuant-W8A8和AWQ-W4A16两种。 AWQ-W4A16量化模型可以由非量化模型压缩后生成,也可以直接使用开源AWQ权重。 SmoothQuant-W8A8量化模型只能由非量化模型压缩生成。 ModelArts Studio大模型即服务平台已预置非量化模型与AWQ-W4A16量化模型的模型模板。 非量化模型可以支持调优、压缩、部署等操作。 量化模型仅支持部署操作。当需要获取SmoothQuant-W8A8量化模型时,则可以通过对非量化模型进行模型压缩获取。
  • 步骤1:获取API Key 在调用MaaS部署的模型服务时,需要填写API Key用于接口的鉴权认证。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“鉴权管理”。 在“鉴权管理”页面,单击“创建API Key”,填写描述信息后,单击“确认”会返回“您的密钥”,请复制保存密钥,单击“关闭”后将无法再次查看密钥。 最多支持创建5个密钥,密钥只会在新建后显示一次,请妥善保存。 当密钥丢失将无法找回,请新建API Key获取新的访问密钥。
  • 部署模型服务 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。 单击“部署模型服务”进入部署页面,完成创建配置。 表1 部署模型服务 参数 说明 服务设置 服务名称 自定义部署模型服务的名称。 支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。 描述 部署模型服务的简介。支持256字符。 模型设置 部署模型 单击“选择模型”,从“我的模型”列表中选择需要部署的模型。 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息。 流量限制(QPS) 设置待部署模型的流量限制QPS。 单位:次/秒 说明: 在部署过程中出现错误码“ModelArts.4206”时,表示QPS请求数量达到限制,建议等待限流结束后再重启服务。 实例数 设置服务器个数。 推荐实例数 = 流量限制 ÷ 推荐的单实例流量限制 推荐的单实例流量限制请参见单实例QPS的推荐值说明。 更多选项 事件通知 选择是否打开“事件通知”开关。 开关关闭(默认关闭):表示不启用 消息通知 服务。 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”和“事件”。 “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。 “事件”:选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。 说明: 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅。 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明。 自动停止 当使用付费资源时,可以选择是否打开“自动停止”开关。 开关关闭(默认关闭):表示任务将一直运行。 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止任务,准备排队等状态不扣除运行时长。 参数配置完成后,单击“提交”,创建部署任务。 在“我的服务”列表,当模型“状态”变成“运行中”时,表示模型部署完成。
  • 单实例QPS的推荐值说明 单实例流量限制QPS和请求的输入输出有关,表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据,仅供参考,如果要了解其余典型场景的QPS推荐值请联系技术支持。 单位:次/秒 表2 各模型的QPS推荐值 模型名称 QPS推荐值 Baichuan2-13B 1 Baichuan2-7B 3 ChatGLM3-6B 3 Llama2-13B 1 Llama2-13B-AWQ 1 Llama2-13B-SQ 1 Llama2-70B 1 Llama2-70B-AWQ 1 Llama2-70B-SQ 1 Llama2-7B 3 Llama2-7B-AWQ 3 Llama2-7B-SQ 3 Llama3-70B 1 Llama3-70B-AWQ 1 Llama3-70B-SQ 1 Llama3-8B 3 Llama3-8B-AWQ 3 Llama3-8B-SQ 6 Llama3.1-70B 1 Llama3.1-8B 3 Qwen1.5-14B 1 Qwen1.5-14B-AWQ 1 Qwen1.5-14B-SQ 1 Qwen1.5-32B 1 Qwen1.5-72B 1 Qwen1.5-72B-AWQ 1 Qwen1.5-72B-SQ 1 Qwen1.5-7B 3 Qwen1.5-7B-AWQ 3 Qwen1.5-7B-SQ 3 Qwen-14B 1 Qwen2-72B 1 Qwen2-72B-AWQ 1 Qwen2-72B-SQ 1 Qwen2-72B-1K 1 Qwen2-72B-32K 1 Qwen2-7B 3 Qwen2-7B-AWQ 3 Qwen-72B 1 Qwen-7B 3 Qwen2-1.5B 6 Qwen2-0.5B 9 Qwen2.5-0.5B 9 Qwen2.5-1.5B 6 Qwen2.5-7B 3 Qwen2.5-72B 1 Qwen2.5-72B-32K 1 Glm-4-9B 3 Yi-34B 1 Yi-6B 3 Deepseek-Coder-33B 1
  • 查看部署任务信息 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。 选择“我的服务”页签。 单击服务名称,进入部署模型服务详情页面,可以查看服务信息。 “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。 “监控”:可以查看服务监控和资源监控信息。 “算力利用率”表示每分钟NPU的平均使用率,当请求率较低时,使用率会显示为0。 “事件”:可以查看服务的事件信息。事件保存周期为1个月,1个月后自动清理数据。 “日志”:可以搜索和查看服务日志。
  • 场景描述 表1 支持的修改任务 修改任务 任务介绍 参考信息 修改流量限制QPS ModelArts Studio大模型即服务平台支持手动修改模型服务的实例流量限制QPS,该操作不会影响部署服务的正常运行。 修改QPS 扩缩容实例数 ModelArts Studio大模型即服务平台支持手动扩缩容模型服务的实例数,该操作不会影响部署服务的正常运行。 扩缩容实例数 更新模型权重 ModelArts Studio大模型即服务平台支持滚动升级模型权重,允许模型服务在运行时进行权重的迭代升级,该操作不会影响部署服务的正常运行。 更新MaaS模型服务的模型权重
  • 使用流程 表1 MaaS使用流程 步骤 操作 说明 相关文档 1 准备工作 在开始使用ModelArts Studio大模型即服务平台前,需要先准备好相关依赖资源,例如创建OBS桶、创建资源池等。 准备MaaS资源 2 模型创建 在ModelArts Studio大模型即服务平台的“模型广场”中选择大模型模板后,需要先创建自定义大模型,才能进行模型训练和推理,才能获得更适合特定领域或任务的大语言模型。 在MaaS中创建模型 3 模型调优 完成数据集的准备后,可以在ModelArts Studio大模型即服务平台开始模型调优。模型调优,即使用训练数据集和验证数据集训练模型。 使用MaaS调优模型 模型压缩 在ModelArts Studio大模型即服务平台支持对自定义模型进行模型压缩,以此提升推理服务性能、降低部署成本。 使用MaaS压缩模型 4 模型部署 ModelArts Studio大模型即服务平台支持将自定义模型部署到计算资源上,便于在“模型体验”或其他业务环境中可以调用该模型。 使用MaaS部署模型服务 5 模型体验 在ModelArts Studio大模型即服务平台完成模型部署后,可以“模型体验”调用该模型服务进行功能体验。 在MaaS体验模型服务 调用模型服务 在ModelArts Studio大模型即服务平台完成模型部署后,可以再其他业务环境中调用该模型服务进行预测。 调用MaaS部署的模型服务 免费体验 预置服务 ModelArts Studio大模型即服务平台给新用户分配了每个模型100万Tokens的免费调用额度,无需部署即可一键体验通义千问、Llama、ChatGLM等预置模型服务。 免费体验MaaS预置服务 - 应用体验 ModelArts Studio大模型即服务平台提供了MaaS应用实践中心,为具体的应用场景提供一整套解决方案。 在MaaS应用实践中心查看应用解决方案
  • 应用场景 ModelArts Studio大模型即服务平台(MaaS)的应用场景: 业界主流开源大模型覆盖全 MaaS集成了业界主流开源大模型,含Llama、Baichuan、Yi、Qwen模型系列,所有的模型均基于昇腾AI云服务进行全面适配和优化,使得精度和性能显著提升。开发者无需从零开始构建模型,只需选择合适的预训练模型进行微调或直接应用,减轻模型集成的负担。 零代码、免配置、免调优模型开发 平台结合与100+客户适配、调优开源大模型的行业实践经验,沉淀了大量适配昇腾,和调优推理参数的最佳实践。通过为客户提供一键式训练、自动超参调优等能力,和高度自动化的参数配置机制,使得模型优化过程不再依赖于手动尝试,显著缩短了从模型开发到部署的周期,确保了模型在各类应用场景下的高性能表现,让客户能够更加聚焦于业务逻辑与创新应用的设计。 资源易获取,按需收费,按需扩缩,支撑故障快恢与断点续训 企业在具体使用大模型接入企业应用系统的时候,不仅要考虑模型体验情况,还需要考虑模型具体的精度效果,和实际应用成本。 MaaS提供灵活的模型开发能力,同时基于昇腾云的算力底座能力,提供了若干保障客户商业应用的关键能力。 保障客户系统应用大模型的成本效率,按需收费,按需扩缩的灵活成本效益资源配置方案,有效避免了资源闲置与浪费,降低了进入AI领域的门槛。 架构强调高可用性,多数据中心部署确保数据与任务备份,即使遭遇故障,也能无缝切换至备用系统,维持模型训练不中断,保护长期项目免受时间与资源损耗,确保进展与收益。 大模型应用开发,帮助开发者快速构建智能Agents 在企业中,项目级复杂任务通常需要理解任务并拆解成多个问题再进行决策,然后调用多个子系统去执行。MaaS基于多个优质昇腾云开源大模型,提供优质Prompt模板,让大模型准确理解业务意图,分解复杂任务,沉淀出丰富的多个智能Agent,帮助企业快速智能构建和部署大模型应用。
  • 查看调优任务详情 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型调优”进入任务列表。 单击任务名称,进入调优任务详情页面,可以查看任务详情和日志。 “详情”:可以查看任务的基本信息,包括任务、模型、资源等设置信息。 “日志”:可以搜索、查看和下载任务日志。 查看loss:当作业进入训练流程之后,会按照Step进行loss打印,因此在日志中搜索关键字段“lm loss”即可查看loss。 获取训练吞吐数据:在打印的loss日志中搜索关键字段“elapsed time per iteration”获取每步迭代耗时,总的Token数可以用日志中的“global batch size”和“SEQ_LEN”相乘获得,训练的每卡每秒的吞吐=总Token数÷每步迭代耗时÷总卡数。
  • 模型调优时长估算 调优时长表示调优任务的“状态”处于“运行中”的耗时。由于训练吞吐有上下限,因此计算出的调优时长是个区间。 计算公式:调优时长 = 经验系数 x Iterations ÷(卡数 x 实例数 x 吞吐)+ 前后处理时间 单位:小时 表3 参数说明 参数 说明 经验系数 经验系数与模型训练迭代过程中处理的序列长度和批次大小有关。 Qwen2-72B-1K模型的经验系数 = 512 x 1024 ÷ 3600 ≈ 146 其他模型的经验系数 = 32 x 4096 ÷ 3600 ≈ 36 Iterations 创建调优任务时设置的“迭代步数/Iterations”超参值。 卡数 和创建调优任务时选择的“实例规格”相关,例如,“实例规格”选择的是“Ascend: 2*ascend-snt9b2(64GB) ”,*号前面的数字是2,则卡数就是2。 实例数 创建调优任务时设置的“实例数”。 吞吐 吞吐表示每秒每卡处理的Tokens数量,吞吐值的上下限可以参考表4获取。 单位:tokens/s/p 前后处理时间 调优时长还包括训练前的数据预处理、训练后格式转换等调优之外的耗时,统称为前后处理时间。 调优任务的前后处理时间和模型参数量相关,不同参数量的时间估值如下: 72B : 1.35小时 32B:0.58小时 14B:0.25小时 7B:0.15小时 表4 各模型的吞吐数据参考 模型名称 训练类型 吞吐下限取整 吞吐上限取整 Baichuan2-13B sft 1200 1600 lora 1300 1800 ChatGLM3-6B sft 2000 2700 lora 2300 3100 GLM-4-9B sft 1800 2100 lora 2400 2800 Llama2-13B sft 1300 1800 lora 1400 1900 Llama2-70B sft 300 400 lora 400 500 Llama2-7B sft 3100 4200 lora 3500 4700 Llama3-70B sft 300 400 lora 300 500 Llama3-8B sft 2100 2800 lora 2300 3100 Qwen-14B sft 1200 1600 lora 1400 1900 Qwen-72B sft 300 400 lora 300 500 Qwen-7B sft 2100 2900 lora 2200 3000 Qwen1.5-14B sft 1300 1700 lora 1400 1800 Qwen1.5-32B sft 600 800 lora 700 900 Qwen1.5-72B sft 300 400 lora 300 500 Qwen1.5-7B sft 2200 3000 lora 2600 3600 Qwen2-0.5B sft 12800 17300 lora 12800 17300 Qwen2-1.5B sft 7300 9800 lora 7300 9900 Qwen2-72B sft 300 300 lora 300 400 Qwen2-72B-1K sft 300 300 lora 300 400 Qwen2-7B sft 2300 3200 lora 2600 3500
  • 支持的数据集格式 jsonl格式 一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条,如下所示是一行数据集的示例,单轮对话也可以复用此格式。 {"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}} “conversation_id”是样本编号。 “chat”后面是多轮对话的内容 “turn_n”表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。 单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。 xlsx和csv格式 表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。 conversation_id:对话ID,可以重复,但必须是正整数。若有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。 human:对话输入,内容不能为空。 assistant:对话输出,内容不能为空。 请按数据集格式要求准备数据,否则会导致调优任务失败。
  • 创建调优任务 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型调优”进入任务列表。 单击“创建调优任务”进入创建页面,完成创建配置。 表2 创建调优任务 参数 说明 任务设置 任务名称 自定义调优任务名称。 支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。 描述 调优任务简介。支持1000字符。 模型设置 模型来源 单击“选择模型”,从“我的模型”列表中选择需要调优的模型。 选择调优类型 全参微调:直接在模型上训练,影响模型全量参数的微调训练,效果较好,收敛速度较慢,训练时间较长。 LoRA微调:冻结原模型,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数,效果接近或略差于全参训练,收敛速度快,训练时间短。 调优后的模型名称 设置调优后产生的新模型的名称。 支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、下划线(_)、中划线(-)和(.)。 数据设置 添加数据集 选择存放训练数据集的OBS路径,必须选择到文件。 说明: 数据集必须满足要求(请参见约束限制),否则调优会失败。 调优后模型权重保存路径 选择存放调优后的模型权重文件的OBS路径。 说明: 权重文件要存放在空文件夹中,否则会覆盖原有文件。 超参设置 迭代步数/Iterations 设置模型参数/权重更新的次数。在调优过程中,Qwen2-72B-1K模型的每一个Iterations会消耗512条训练数据,其他模型的每一个Iterations会消耗32条训练数据。 当数据集是数百量级,则建议迭代4~8个epoch(epoch表示整个数据集被完整地用于一次训练的次数);当数据集是数千量级,则建议迭代2~4个epoch;当数据集是更大数量,则建议迭代1~2个epoch。 总Iterations = 整个数据集完整训练需要的Iterations * epoch。例如,当一个数据集有3200条数据,完整训练一个数据集的Iterations为100,迭代2个epoch,总Iterations就是200。 取值范围:1~100000 默认值:1000 学习率/learning_rate 设置每个迭代步数(iteration)模型参数/权重更新的速率。学习率设置得过高会导致模型难以收敛,过低则会导致模型收敛速度过慢。 取值范围:0~0.1 默认值:0.00002 建议微调场景的学习率设置在10-5这个量级。 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息,仅显示模型支持的资源 实例数 设置实例数。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示不永久保存日志,则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。 开关打开:表示永久保存日志,此时必须配置“日志路径”,系统会将任务日志永久保存至指定的OBS路径。 事件通知 选择是否打开“事件通知”开关。 开关关闭(默认关闭):表示不启用消息通知服务。 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”和“事件”。 “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。 “事件”:选择要订阅的事件类型。例如“创建中”、“已完成”、“运行失败”等。 说明: 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅。 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明。 自动停止 当使用付费资源时,可以选择是否打开“自动停止”开关。 开关关闭(默认关闭):表示任务将一直运行直至完成。 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止任务,准备排队等状态不扣除运行时长。 参数配置完成后,单击“提交”,创建调优任务。 在任务列表,当模型“状态”变成“已完成”时,表示模型调优完成。
  • 约束限制 表1列举了支持模型调优的模型,不在表格里的模型不支持使用MaaS调优模型。 当选择ChatGLM3-6B、GLM-4-9B、Qwen-7B、Qwen-14B和Qwen-72B模型框架进行模型调优时,在创建模型时需要修改权重配置才能正常运行模型。详细配置请参见修改权重配置。 表1 支持模型微调的模型 模型名称 全参微调 lora微调 Baichuan2-13B √ √ ChatGLM3-6B √ √ GLM-4-9B √ √ Llama2-13B √ √ Llama2-70B √ √ Llama2-7B √ √ Llama3-70B √ √ Llama3-8B √ √ Qwen1.5-14B √ √ Qwen1.5-32B √ √ Qwen1.5-72B √ √ Qwen1.5-7B √ √ Qwen2-72B √ √ Qwen2-72B-1K √ √ Qwen2-7B √ √ Qwen-72B √ √ Qwen-14B √ √ Qwen-7B √ √ Qwen2-1.5B √ √ Qwen2-0.5B √ √
  • 变更计费模式概述 在购买TaurusDB后,如果发现当前计费模式无法满足业务需求,您可以变更计费模式。支持变更计费模式的TaurusDB计费项如表1所示。 表1 支持变更计费模式的TaurusDB计费项 计费项 变更说明 相关文档 实例规格(vCPU和内存) 变更TaurusDB实例的计费模式会同时变更计算资源(vCPU和内存)和存储空间的计费模式。 将TaurusDB实例的计费模式从按需计费转为包年/包月,可以让您享受一定程度的价格优惠。 将TaurusDB实例的计费模式从包年/包月转为按需计费,可以帮助您回收部分成本,并更加灵活地使用TaurusDB实例。 说明: 包年/包月计费模式到期后,按需计费模式才会生效。 按需转包年/包月 包年/包月转按需 EIP 包年/包月EIP支持到期后转为按需、按带宽计费EIP。 按需、按带宽计费EIP支持转为包年/包月EIP。 按需、按带宽计费EIP支持和按需、按流量计费EIP互转。 具体变更方式可参考图1。 按需转包年/包月 包年/包月转按需 图1 EIP计费模式变更 父主题: 变更计费模式
  • 计费项 表1 计费项说明 计费项 计费说明 数据库实例 对所选的实例规格进行计费,实例购买后立即开始计费,详情见计费规则。 数据库存储 对数据库存储空间进行计费,购买时无需选择存储容量,存储费用按照实际使用量每小时计费。 备份存储 提供了部分免费存储空间,用于存放您的备份数据,其总容量约为您使用存储容量的100%。备份存储用量超过数据库存储空间的100%,超出部分将按照备份计费标准收费。 公网流量(可选) TaurusDB实例支持公网访问,公网访问会产生带宽流量费;TaurusDB数据库实例在云内部网络产生的流量不计费。 HTAP实例(可选) 目前HTAP标准版实例处于公测阶段,暂时不收费。
  • 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的云数据库TaurusDB实例,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券等条件返还一定金额到您的帐户。详细的退订规则请参见云服务退订规则概览。 如果您已开启“自动续费”功能,为避免继续产生费用,请在自动续费扣款日(默认为到期前7日)之前关闭自动续费。
  • 续费相关的功能 包年/包月实例续费相关的功能如表1所示。 表1 续费相关的功能 功能 说明 手动续费 包年/包月TaurusDB实例从购买到被自动删除之前,您可以随时在TaurusDB实例控制台为实例续费,以延长实例的使用时间。 自动续费 开通自动续费后,TaurusDB实例会在每次到期前自动续费,避免因忘记手动续费而导致资源被自动删除。 在一个包年/包月TaurusDB实例生命周期的不同阶段,您可以根据需要选择一种方式进行续费,具体如图1所示。 图1 TaurusDB实例生命周期 云数据库从购买到到期前,处于正常运行阶段,资源状态为“运行中”。 到期后,资源状态变为“已过期”。 到期未续费时,云数据库首先会进入宽限期,宽限期到期后仍未续费,资源状态变为“已冻结”。 超过宽限期仍未续费将进入保留期,如果保留期内仍未续费,资源将被自动删除。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 云数据库TaurusDB实例到期前均可开通自动续费,到期前7日凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至云数据库TaurusDB实例到期或者续费成功。到期前7日自动续费扣款是系统默认配置,您也可以根据需要修改此扣款日。
  • 核对资源用量是否与实际相符 假设用户在2023/04/08 10:09:06购买了一个按需计费云数据库TaurusDB实例,并在2023/04/08 12:09:06时刻将其删除。 云数据库TaurusDB实例流水账单消费流水 按需计费TaurusDB实例按秒计费,每一个小时整点结算一次费用,您可以在流水账单消费流水中核对每一个计费周期的信息是否和实际相符,流水账单消费流水中计费资源是分开计费的,以“TaurusDB存储”为例,具体如表1所示。 表1 云数据库 TaurusDB流水账单消费流水 产品类型 云数据库 TaurusDB 产品 TaurusDB存储 计费模式 按需 消费时间 2023/04/08 10:09:06 ~ 2023/04/08 12:09:06时段计费系统将生成3笔流水账单消费流水,对应每一个计费周期,分别如下: 2023/04/08 10:09:06 ~ 2023/04/08 11:00:00 2023/04/08 11:00:00 ~ 2023/04/08 12:00:00 2023/04/08 12:00:00 ~ 2023/04/08 12:09:06 官网价 官网价=使用量*单价*容量 本例中,在第一个计费周期内TaurusDB的使用量为3054秒,单价可在TaurusDB价格详情中查询。 以0.00625元/GB/小时为例,容量为40GB,那么官网价=(3054 ÷ 3600) * 0.00625 * 40 = 0.21208333元。同理,您可以计算剩余计费周期内资源的官网价。 优惠金额 用户使用云服务享受折扣优惠如商务折扣、伙伴授予折扣以及促销优惠等减免的金额。基于官网价的优惠金额。 抹零金额 华为云产品 定价精度为小数点后8位(单位:元),因此在计费过程中会产生小数点后8位的资源使用费用。 在实际扣费时,仅扣除到小数点后2位,小数点后第3位到第8位部分金额会被舍弃,这种舍弃部分的金额称作抹零金额。 以第一个计费周期为例,抹零金额为0.00208333 元。 应付金额 应付金额=官网价-优惠金额-抹零金额 以第一个计费周期为例,假设优惠金额为0,那么应付金额=0.21208333 - 0 - 0.00208333 = 0.21 元。 云数据库TaurusDB实例明细账单 明细账单可以通过多维度展示客户账单的详细信息。一般通过设置统计维度为“按使用量”,统计周期为“按账期”来统计资源在某个月份的总开销,以“TaurusDB存储”为例,建议您核对表2所示的信息是否和实际相符。 表2 云数据库TaurusDB明细账单 产品类型 云数据库 TaurusDB 产品 TaurusDB存储 计费模式 按需 资源名称/ID TaurusDB的名称和ID 例如:gauss-ec81,df37e4ff6a2d4600b923e2a6555a6d70in07.volume 规格 TaurusDB存储 使用量类型 按需计费云数据库TaurusDB的使用量类型为“时长” 单价 按需计费模式为简单 定价 (使用量*单价)时提供单价信息,其他的定价(如EIP公网带宽的阶梯定价)等不提供单价。 按需计费TaurusDB属于简单定价,您可以在TaurusDB价格详情中查询单价。 单价单位 在TaurusDB价格详情中查询到的单价单位:元/GB/小时 使用量 按产品单价单位显示使用量,TaurusDB的单价单位为元/GB/小时,因此使用量以小时为单位。本例中,2023/04/08 10:09:06 ~ 2023/04/08 12:09:06时段总计使用量为2小时。 使用量单位 小时 官网价 官网价=使用量*单价*容量 本例中,使用量为2小时,单价可在TaurusDB价格详情中查询,以0.00625元/GB/小时为例,容量为40GB,那么官网价=2 * 0.00625 * 40 = 0.5 元。 优惠金额 用户使用云服务享受折扣优惠如商务折扣、伙伴授予折扣以及促销优惠等减免的金额。基于官网价的优惠金额。 应付金额 用户使用云服务享受折扣优惠后需要支付的费用金额。
  • 计费场景 某用户于2023/03/18 16:00:00在华北-北京四成功购买了一个按需计费的云数据库TaurusDB,规格配置如下: 规格:2vCPUs,8GB 节点数量:2 用了一段时间后,用户发现TaurusDB当前规格无法满足业务需要,于2023/03/20 9:00:00扩容规格为4vCPUs,16GB。因为打算长期使用TaurusDB,于2023/03/20 10:30:00将按需TaurusDB转为包年/包月计费,购买时长为1个月。那么在3~4月份,TaurusDB总共产生多少费用呢?
  • 计费构成分析 可以将TaurusDB的使用阶段按照计费模式分为两段,且为非月度结算: 2023/03/18 16:00:00 ~ 2023/03/20 10:30:00:按需计费 2023/03/18 16:00:00 ~ 2023/03/20 9:00:00 实例规格:2vCPUs,8GB 节点数量:2 使用存储空间:20GB 使用备份空间:20GB 2023/03/20 9:00:00 ~ 2023/03/20 10:30:00期间 实例规格:4vCPUs,16GB 节点数量:2 使用存储空间:10GB 使用备份空间:15GB(备份按需计费时间:2023/03/20 10:00:00~2023/03/20 10:30:00) 公网带宽:6Mbit/s 秒级监控:1秒监控 2023/03/20 10:30:00 ~ 2023/04/20 23:59:59:包年/包月计费 实例规格:4vCPUs,16GB 节点数量:2 使用存储空间:80GB 使用备份空间:100GB(备份按需计费时间:2023/04/10 23:59:59 ~ 2023/04/20 23:59:59) 公网带宽:6Mbit/s 秒级监控:1秒监控 计费时长:1个月 图中价格仅供参考,以华北-北京四为例,实际计算请以TaurusDB价格详情中的价格为准。 按需计费 在2023/03/18 16:00:00 ~ 2023/03/20 9:00:00期间按照2vCPUs,8GB规格计费,计费时长41小时,,各项资源计费时长如下: 在2023/03/20 9:00:00 ~ 2023/03/20 10:30:00期间按照4vCPUs,16GB规格计费,计费时长为1.5小时,费用计算如下: 包年/包月计费 在2023/03/20 10:30:00 ~ 2023/04/20 23:59:59期间为包年/包月计费,计费时长为1个月,费用计算如下: 由此可见,在3~4月份,TaurusDB总共产生的费用为:101.88 + 8.19 +2765.81 =2875.88 元。
  • 计费说明 表1 计费说明 计费项 规格码 价格 备份空间 gaussdb.mysql.crossreg.backup.space 国内Region(不含香港):0.000221 元/GB/小时 香港:0.000458 元/GB/小时 海外Region:0.00163 元/GB/小时 跨区域转储网络流量 gaussdb.mysql.crossreg.backup.flow 国内Region(不含香港):0.5 元/GB 香港:0.6400 元/GB
  • 成本分配 成本管理的基础是树立成本责任制,让各部门、各业务团队、各责任人参与进来,为各自消耗云服务产生的成本负责。企业可以通过成本分配的方式,将云上成本分组,归集到特定的团队或项目业务中,让各责任组织及时了解各自的成本情况。 华为云成本中心支持通过多种不同的方式对成本进行归集和重新分配,您可以根据需要选择合适的分配工具。 通过关联账号进行成本分配 企业主客户可以使用关联账号对子客户的成本进行归集,从而对子账号进行财务管理。详细介绍请参见通过关联账号维度查看成本分配。 通过企业项目进行成本分配 在进行成本分配之前,建议开通企业项目并做好企业项目的规划,可以根据企业的组织架构或者业务项目来划分。在购买云资源时选择指定企业项目,新购云资源将按此企业项目进行成本分配。详细介绍请参见通过企业项目维度查看成本分配。 图1 选择企业项目 通过成本标签进行成本分配 标签是华为云为了标识云资源,按各种维度(例如用途、所有者或环境)对云资源进行分类的标记。推荐企业使用预定义标签进行成本归集,具体流程如下: 图2 添加标签 详细介绍请参见通过成本标签维度查看成本分配。 使用成本单元进行成本分配 企业可以使用成本中心的“成本单元”来拆分公共成本。公共成本是指多个部门共享的计算、网络、存储或资源包产生的云成本,或无法直接通过企业项目、成本标签分配的云成本。这些成本不能直接归属于单一所有者,因此不能直接归属到某一类别。使用拆分规则,可以在各团队或业务部门之间公平地分配这些成本。详细介绍请参见使用成本单元查看成本分配。 父主题: 成本管理
  • 发布历史 记录了客户端版本发布历史,包括新特性、问题修复及优化等内容,用户可以在该页面下载最新版本客户端。 版本号 操作系统 OS支持 更新内容 发布时间 2.1.0 Windows X86 新特性: 项目支持分组功能、支持显示IPD类型的项目;新增系统公告能力,包含“测试计划”套餐试用提示;API设计模块增加项目概览;项目成员支持通过委托方式导入新成员; 2024-09-13 2.0.8 Windows X86 新特性: 项目管理模块新增定时导入swaggerURL能力;项目管理模块优化权限管理能力,与CodeArts权限同步; 快捷调试模块增加实际请求以及页面内名称修改能力。 2024-07-30 2.0.6 Windows X86 新特性: 项目管理支持YApi文件导入;快捷调试模块中,表单支持复制和另存为的便捷操作,URL支持引入环境变量;API设计模块中,接口导出功能支持Swagger2.0和JSON格式。 2024-06-04 2.0.5 Windows X86 新特性: API测试模块对接版本管理功能,支持版本切换; 版本管理新增测试用例数据,新增版本间导入测试用例功能; 导入功能优化:项目导入支持apifox文件前后置脚本导入;快捷调试支持Postman的Collection级别全量导入;API设计支持postman文件前后置脚本导入; 前后置脚本功能优化:支持创建或修改动态变量。 2024-05-10 2.0.4 Windows X86 新特性: 客户端新增未登录使用快捷调试能力;API设计模块新增设计审核能力、优化Swagger文件导入和Postman全量导入;API发布模块新增注册APIG网关能力。 2024-04-11 2.0.3 Windows X86 新特性: 项目管理模块新增导入Apifox项目能力;API测试模块新增关键字库功能,测试用例编排新增以下测试步骤模板:循环、if判断、URL请求、postman导入、分组。 2024-03-21 2.0.2 Windows X86 新特性: API设计模块中,新增前后置脚本功能;项目设置中,增加Mock功能设置页面。 2024-01-31 2.0.1 Windows X86 新特性: 增加扫码登录记住账号密码功能,新增快捷键能力,Postman文件可导入快捷调试,公共模型与快捷调试目录支持文件拖拽等功能。 2024-01-09 2.0.0 Windows X86 新特性: 增加公共组件编辑功能,不可视字符进行高亮提示,API测试增加默认变量MockURL。 2023-11-30 1.0.0 Windows X86 新特性: 客户端1.0.0版本正式发布,提供API表单化设计、文档管理、Mock&本地调试、快捷调试、规范校验、自动化测试及项目团队管理能力。 2023-05-22
  • 慢日志存储 开启收集慢日志开关后,会将SQL的文本内容存储到OBS中,以便进行分析。 已升级高级智能运维包,您可以在右上角日志管理,设置慢日志存储时长。 慢SQL存储:默认7天,可设置范围1~30天,到期后自动删除。 全量SQL存储:默认7天,可设置范围为1~180天。 日志数据量:免费赠送5GB的SQL存储空间,超出部分将按需计费。 图6 日志存储与归档(已升级高级智能运维包) 未升级高级智能运维包 慢SQL存储:默认1小时,到期后自动删除。 全量SQL存储:1小时 图7 日志存储与归档(未升级高级智能运维包)
共100000条