华为云用户手册

  • 错误码 当您调用API时,如果遇到“APIGW”开头的错误码,请参见API网关错误码进行处理。 状态码 错误码 错误信息 描述 处理措施 400 GSL.00010004 Parameter error 参数错误 请检查请求的参数是否符合API文档的要求。 400 GSL.00011001 The SIM card does not exist or you do not have the permission to access the SIM card. sim卡不存在或没有SIM卡的访问权限! 请检查ICCID以及该卡是否属于当前账号。 400 GSL.00011010 The number of iccids exceeds the upper limit. iccid 超过个数限制。 请减少ICCID 个数。 400 GSL.00011011 The iccid:[898604031020702XXXX] does not exist. iccid:[898604031020702XXXX] 不存在 请检查SIM卡ICCID。 400 GSL.00011016 Unsupported rate limit 不支持的限制速率 请检查限制速率是否符合API文档的要求。 400 GSL.00011063 Target carrier type that does not supported. 不支持切换的目标运营商 不支持切换的目标运营商 400 GSL.00012002 The package ID is invalid. The package does not exist. 传入的套餐ID无效,套餐不存在。 请检查套餐ID。 400 GSL.00012016 SIM card file does not exist, please cheak! SIM卡文件不存在,请检查! 请输入有效的临时文件。 400 GSL.00013012 The SIM card corresponding to the order does not exist and cannot be renewed. Please check. 您操作的订单对应的SIM卡不存在,不能续费,请检查! 请检查操作的订单是否存在该SIM卡。 400 GSL.00015028 Policy does not exist. 策略不存在! 策略不存在! 400 GSL.00015032 The preferred carrier cannot be the same as the least preferred carrier. 优先使用运营商和最不优先使用运营商不能相同! 优先使用运营商和最不优先使用运营商不能相同! 400 GSL.00015033 Either the weak signal switchover policy or the connection delay switchover policy must be set. 弱信号切换策略、连接延时切换策略必须设置其中一种! 弱信号切换策略、连接延时切换策略必须设置其中一种! 400 GSL.00015034 Policy name already exists. Please check. 策略名称已经存在,请检查! 策略名称已经存在,请检查! 400 GSL.00015035 You can create up to 50 policies. 登录用户最多可以创建50个策略。 登录用户最多可以创建50个策略。 400 GSL.00015039 Switch order has incorrect format. Please check. 切卡顺序格式错误,请检查! 切卡顺序格式错误,请检查! 400 GSL.00016051 The number of SIM cards list exceeds the limit (1-500), please check! SIM卡数量必须介于1和500之间,请重新输入! 请检查输入的SIM卡列表数量。 400 GSL.00016052 The number of tags list exceeds the limit (0-10), please check! 标签数量必须介于0-10之间,请重新输入!! 请检查输入的标签列表的数量。 400 GSL.00016053 Below {0} does not exist or no permission, please check! {0} : {1} 以下{0}不存在或没有操作权限,请重新输入!{0} : {1} 请检查相应的simCardId/tagId。 400 GSL.00016054 Below {0} duplicate, please check! {0} : {1} 以下{0}重复,请重新输入!{0} : {1} 请检查相应的simCardId/tagId。 400 GSL.00022001 Tag name illegal, please enter another name! 标签名称不合法,请检查! 请重新输入标签。 400 GSL.00022002 Tag name already exists, please enter another name! 标签名称已存在,请重新输入! 请重新输入标签。 400 GSL.00022003 A user can create up to 200 Tags. 登录用户最多可以创建200个标签。 请检查已有标签数量。 400 GSL.00022004 The login user does not have the permission to access the tag. 登录用户没有标签的访问权限。 请检查输入标签是否有效。 400 GSL.00027001 Invalid custom attribute name, please check! 自定义属性名称不合法,请检查! 请输入其他自定义属性名称,仅支持中文、大小写英文、数字、或者特殊符号'-'和'_'。 400 GSL.00027002 Custom attribute name already exists, please enter another name! 自定义属性名称已存在,请重新输入! 请输入其他自定义属性名称。 400 GSL.00027003 Custom attribute name cannot be same with SIM cards list column names, please enter another name! 自定义属性名称和SIM卡管理列字段重复,请重新输入! 请检查输入的自定义属性名称,不能与已有SIM卡管理列字段重复。 400 GSL.00027004 A user can create up to 6 custom attributes. 登录用户最多可以创建6个自定义属性。 创建的自定义属性名不能超过6个。 400 GSL.00027005 The login user does not have the permission to access the custom attribute. 登录用户没有对应自定义属性的访问权限。 请检查输入的自定义属性是否有效。 403 GSL.00010001 The token carried in the request is invalid. 请求携带的token无效。 请检查携带的Token是否有效。 403 GSL.00010002 The user has been frozen and cannot invoke the API. 用户已被冻结,无法调用API。 请检查是否欠费。 403 GSL.00011004 Invalid bill cycle. Please check. 账期不合法,请检查! 请检查账期格式和账期范围 403 GSL.00011005 The name already exists. Please enter another name. 名称已存在,请重新输入! 名称已存在,请输入一个新的名称。 403 GSL.00011007 A query service has been delivered. Please try again later. 当前已有查询业务下发,请稍后重试! 当前已有查询业务下发,请稍后重试! 403 GSL.00011012 The order you are operating is in the unfinished state and cannot be renewed. Please check. 您操作的订单处于未完成状态,不能续费,请检查! 未完成状态的订单不能续费。 403 GSL.00011015 The current SIM card does not support the operation. 当前SIM卡不支持操作 受运营商限制,不允许当前操作 403 GSL.00011019 The task_type of the export task is incorrect. 导出任务task_type不对! 导出任务task_type不对! 403 GSL.00012003 You do not have the permission to operate the test package. 您没有权限操作测试套餐。 您没有权限操作测试套餐。 403 GSL.00013011 The order you operate has unfinished renewal orders and cannot be renewed. Please check. 您操作的订单仍有未完成的续费订单,不能续费,请检查! 操作的订单仍有未完成的续费订单,不能续费。 403 GSL.00014003 The traffic pool you want to operate does not exist. Please check. 您操作的流量池不存在,请检查! 请检查所操作的流量池是否存在。 403 GSL.00016009 The card you operate has unfinished resumption orders. Do not perform the operation again. 您操作的卡仍有未完成的复机受理单,请勿重复操作。 您操作的卡仍有未完成的复机受理单,请等待受理完毕。 403 GSL.00016010 The card you operate has pending suspension orders. Do not perform the operation again. 您操作的卡仍有未完成的停机受理单,请勿重复操作。 您操作的卡仍有未完成的停机受理单,请等待受理完毕。 403 GSL.00016012 The card you operate is suspended due to excessive traffic and cannot be resumed. 您操作的卡,超流量停机,无法发起复机操作。 请购买流量叠加包或联系工作人员处理 403 GSL.00016014 Failed to activate the card because the card status is {0}. 您操作的卡状态已为{0},无法发起激活操作。 当前卡不支持激活操作。 403 GSL.00016015 The card you operate has pending activation orders. Do not perform the operation again. 您操作的卡仍有未完成的激活受理单,请勿重复操作。 您操作的卡仍有未完成的激活受理单,请等待受理完毕。 403 GSL.00016016 Repeated operations are not allowed within 5 minutes. Please wait. 5分钟内不允许重复操作,请稍作等待。 5分钟内不允许重复操作,请稍作等待。 403 GSL.00016019 You cannot resume the card because the card is not in the disabled state. 您操作的卡状态非停用,无法发起复机操作。 只有停用状态的卡,才能发起复机操作。 403 GSL.00016020 The card you are operating is not in use and cannot initiate this operation 您操作的卡状态非在用,无法发起该操作。 只有在用状态的卡,才能发起停机操作。 500 GSL.00010003 The system is busy. Please try again later. 系统繁忙,请稍后重试! 系统繁忙,请稍后重试! 500 GSL.00010005 Service operation failed. 业务操作失败 业务操作失败,请稍后重试! 500 GSL.00011009 File not exists. 上传文件不存在。 上传文件不存在。 500 GSL.00016005 Unsupported business handling order 不支持的业务受理单 请检查当前业务受理类型
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的 云安全 挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。 华为云租户的安全责任在于对使用的 IaaS、PaaS 和 SaaS 类各项云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、 虚拟主机 和访客虚拟机的操作系统,虚拟防火墙、API 网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
  • 审计与日志 审计 云审计 服务(Cloud Trace Service, CTS ),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 AOS支持审计的操作事件,请参见云审计服务支持的AOS操作列表。 日志 用户开通云审计服务并创建和配置追踪器后,CTS可记录与AOS相关的操作事件,方便您进行事后审计。您可以在CTS控制台,事件列表菜单中,搜索AOS的事件来源,即可查看所有AOS相关的审计日志。 审计日志查看方法,请参见查看云审计日志。 父主题: 安全
  • 身份认证与访问控制 身份认证 租户使用AOS服务通常有控制台访问和API调用两种方式:控制台访问和API调用。 1.控制台身份认证方式 AOS对接了 统一身份认证 服务(Identity and Access Management, IAM )。AOS租户身份认证与访问控制通过IAM权限控制。 统一身份认证(Identity and Access Management,简称IAM)是华为云提供权限管理的基础服务,可以帮助AOS服务安全地控制访问权限。通过IAM,可以将用户加入到一个用户组中,并用策略来控制他们对AOS资源的访问范围。IAM权限可以通过细粒度定义允许和拒绝的访问操作,以此实现AOS资源的权限访问控制。 2.API调用身份认证方式 所有的API接口调用均需要经过认证的请求才可以访问成功,经过认证的请求需要包含一个签名值,该签名值以请求者的访问密钥(AK/SK)作为加密因子,结合请求体携带的特定信息计算而成。通过访问密钥(AK/SK)认证方式进行认证鉴权,即使用Access Key ID(AK)/Secret Access Key(SK)加密的方法来验证某个请求发送者身份。关于访问密钥的详细介绍及获取方式,请参见如何获取AK/SK?(账号)。 父主题: 安全
  • 批量创建 应用场景: 如果您需要创建一个包含10个不同规格的弹性云服务器实例的Web应用,或者您需要一次创建10个数据库实例时,您需要一个个单独创建这些资源,然后必须将这些资源配置为结合使用,才能确保应用顺利启动,增加了使用云资源的复杂性和时间成本。 价值: 应用编排服务 将大批量的、不同服务、不同规格的资源实例,统一定义在模板中,一键完成创建,实现资源的快速部署和灵活配置。 优势: 快速部署 通过应用编排服务自动化并发创建多个云服务资源,或不同规格的同一服务资源。 灵活配置 丰富的模板语法,支持根据不同场景灵活配置创建资源的种类与规格。 自动回退 批量创建过程中如果失败,用户可选择自动回退,以节省资源成本。 图3 批量创建场景
  • ISV业务发放 应用场景: 独立软件开发商(ISV)需要让客户快速将软件服务部署到云上,供其自身的客户进行使用。ISV传统的软件发放的方式是在其官网提供软件的代码下载及平台搭建指南。但该方式需要客户自建资源与组网,准备时间长,成本高。并且安装过程完全手动,耗时易出错,软件的版本更新都需要客户自己手动操作,运维压力大。 价值: 应用编排服务的模板提供了标准化的资源和应用交付方式。ISV可以通过将软件服务模板化,通过应用编排服务的一键部署能力,对自身客户进行业务发放。 优势: 快速发放 通过模板,自动化完成软件的部署与资源的开通,用户只需一键部署,分钟级完成。 准确创建 ISV软件本身及所需的云服务资源都通过模板固化,减少人工失误带来的影响。 统一维护 软件的生命周期管理可以统一通过AOS服务实现,一键完成软件的升级、伸缩等操作。 图2 ISV业务发放场景
  • 应用上云 应用场景: 应用上云时,很多工作需要重复操作,例如环境的销毁和重建、在扩容的场景下重复完成多个新实例的配置等。同时应用上云时,很多操作非常耗时,例如创建数据库、创建虚拟机等,都需等待分钟级别的时间。一旦需要串行创建多个耗时任务,就需要您持续等待一段时间。而此时如果可以将整个流程自动化,可以减少您的等待过程,完成其他更有价值的任务。 价值: 使用应用编排服务,通过模板对应用及应用所需资源进行统一描述,一键式自动完成部署或销毁操作。您可以同步进行资源规划、应用定义和业务部署,提升应用上云的效率。 优势: 简单易用 通过编写模板,即可完成应用设计与资源的规划,使业务的组织和管理变得轻松。 高效执行 一键式自动完成部署或销毁操作,省去繁琐的人工操作。 快速复制 同一模板可以多次重复使用,自动化构建相同的应用与资源到不同的数据中心。 图1 应用上云场景
  • 简单易用的编排语言 AOS编排语言支持 YAML和JSON 语法来定义需要的元素。 AOS编排语言支持参数化,您只需更改输入参数,即可控制要部署对象的规格、实例数量以及执行的操作,从而实现模板的重复利用。 AOS编排语言支持变量引用,包括引用输入参数、引用元素属性和引用映射表。 引用输入参数:获取模板文件中inputs区域中定义的输入参数的值。 引用元素属性:获取模板中定义的其他元素初始化后的结果。例如新建了一个虚拟私有云,再新建弹性云服务器时,可使用已新建的虚拟私有云ID。该方法可用于构建资源间依赖关系并控制资源的创建顺序。 引用映射表:用于获取映射表中的内容。
  • 产品功能 支持自动化编排资源 AOS提供自动化的编排能力,支持编排华为云主流云服务,具体请参见支持编排的云服务。AOS还提供资源规划、应用设计、部署、变更等生命周期管理等相关服务,通过自动化降低运维成本。 支持应用与云服务资源混合编排 您可通过标准语言(YAML/JSON)统一描述所需基础资源、应用系统、应用上层配套服务及三者之间的关系。根据统一描述,可一键式按照定义的依赖顺序,自动完成资源开通、应用部署、应用服务加载。对于部署的资源和应用,可以统一的进行管理:删除、扩缩容、复制、迁移等。
  • 步骤详情 表1 参数说明 参数项 说明 步骤显示名称 步骤添加后在部署步骤编排区显示的名称。 部署租户 当前租户:表示将软件包部署到当前租户的FunctionGraph插件中发布。 选中“当前租户”,当前租户需要有FunctionGraph操作权限,如果当前没有FunctionGraph操作权限,可以通过下方的IAM授权选择已有权限的授权用户进行部署。 其他租户:表示通过IAM授权方式将软件包部署到其他租户的FunctionGraph中发布。 选中“其他租户”,则必须选择授权租户进行FunctionGraph部署。 说明: 推荐配置拥有FunctionGraph操作权限的子账号的AK/SK,不推荐配置租户账号的AK/SK。 IAM授权 如果当前用户没有FunctionGraph操作权限,可以通过IAM授权选择授权的用户进行部署。 函数名称 FunctionGraph中创建的函数,请参考FunctionGraph使用流程。 函数别名 FunctionGraph中对应函数创建好的别名,函数别名支持绑定两个版本,一个对应版本和开启灰度版本,并且支持配置同一个别名下两个不同版本分流权重,每个版本只能创建一个别名。 对应版本 可通过别名来调用对应版本的函数,仅可以为每个版本创建一个别名。 开启灰度版本 灰度版本可以分流主版本请求的部分,可以通过设置灰度版本的权重值来控制分流的多少,更多灰度版本的介绍,请参考版本管理。 控制选项 配置是否启用该操作。 当前步骤部署失败后,应用是否继续部署后续的步骤。
  • AI Gallery功能介绍 面向开发者提供了AI Gallery大模型开源社区,通过大模型为用户提供服务,普及大模型行业。AI Gallery提供了大量基于昇腾云底座适配的三方开源大模型,同步提供了可以快速体验模型的能力、极致的开发体验,助力开发者快速了解并学习大模型。 构建零门槛线上模型体验,零基础开发者开箱即用,初学者三行代码使用所有模型 通过AI Gallery的AI应用在线模型体验,可以实现模型服务的即时可用性,开发者无需经历繁琐的环境配置步骤,即可直观感受模型效果,快速尝鲜大模型,真正达到“即时接入,即时体验”的效果。 当开发者对希望对模型进行开发和训练,AI Gallery为零基础开发者,提供无代码开发工具,快速推理、部署AI应用;为具备基础代码能力的开发者,AI Gallery将复杂的模型、数据及算法策略深度融合,构建了一个高效协同的模型体验环境,让开发者仅需几行代码即可调用任何模型,大幅度降低了模型开发门槛。 充足澎湃算力,最佳实践算力推荐方案,提升实践效率和成本 AI Gallery深谙开发者在人工智能项目推进过程中面临的实际困难,尤其是高昂的模型训练与部署成本,这往往成为创意落地的阻碍。通过大量开发者实践,针对主流昇腾云开源大模型,沉淀最佳的算力组合方案,为开发者在开发模型的最后一步,提供最佳实践的算力方案、实践指南和文档,节省开发者学习和试错资金成本,提升学习和开发效率。 父主题: 功能介绍
  • Lite功能介绍 ModelArts Lite基于软硬件深度结合、垂直优化,构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群,提供一站式开通、网络互联、高性能存储、集群管理等能力,满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、 内容审核 等领域广泛得到应用。 ModelArts Lite又分以下2种形态: ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。 ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。 ModelArts Lite Cluster主要支持以下功能: 同一昇腾算力资源池中,支持存在不同订购周期的服务器 同一昇腾算力资源池中,支持资源池中订购不同计费类型/计费周期的资源,解决如下用户的使用场景: 用户在包长周期的资源池中无法扩容短周期的节点。 用户无法在包周期的资源池中扩容按需的节点(包括AutoScaler场景)。 支持SFS产品权限划分 支持SFS权限划分特性,可以实现训练场景中,挂载的SFS的文件夹能够权限控制,避免出现所有人都可以挂载使用,导致某用户误删所有数据的情况。 支持选择资源池的驱动版本 通过选择资源池的驱动版本,解决资源池所有节点驱动版本一致的时候,并且没有指定驱动版本,会导致后续加入资源池的节点并不能自动升级到该版本情况,优化了当前需手工处理,增加运维成本问题。 支持节点新进入集群,默认启用准入检测,以能够拉起真实的GPU/NPU检测任务 支持集群扩容时,扩容的节点默认开启准入检测,该准入检测也可关闭,以提升拉起真实的GPU/NPU检测任务成功率。 父主题: 功能介绍
  • MaaS大模型即服务平台功能介绍 对于普通企业来说,大模型开发不仅需要强大的算力,还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台(后续简称为MaaS服务)作为一个面向客户的大模型服务化平台,提供简单易用的模型开发工具链,支持大模型定制开发,让模型应用与业务系统无缝衔接,显著降低了企业AI落地的成本与难度。 业界主流开源大模型覆盖全 MaaS集成了业界主流开源大模型,含Llama、Baichuan、Yi、Qwen、AIGC等模型系列,所有的模型均基于昇腾AI云服务进行全面适配和优化,使得精度和性能显著提升。开发者无需从零开始构建模型,只需选择合适的预训练模型进行微调或直接应用,大大减轻模型集成的负担。 零代码、免配置、免调优模型开发 平台结合与100+客户适配、调优开源大模型的行业实践经验,沉淀了大量适配昇腾,和调优推理参数的最佳实践。通过为客户提供一键式训练、自动超参调优等能力,和高度自动化的参数配置机制,使得模型优化过程不再依赖于手动尝试,显著缩短了从模型开发到部署的周期,确保了模型在各类应用场景下的高性能表现,让客户能够更加聚焦于业务逻辑与创新应用的设计。 资源易获取,按需收费,按需扩缩,支撑故障快恢与断点续训 企业在具体使用大模型接入企业应用系统的时候,不仅要考虑模型体验情况,还需要考虑模型具体的精度效果,和实际应用成本。 MaaS提供灵活的模型开发能力,同时基于昇腾云的算力底座能力,提供了若干保障客户商业应用的关键能力。 保障客户系统应用大模型的成本效率,按需收费,按需扩缩的灵活成本效益资源配置方案,有效避免了资源闲置与浪费,降低了进入AI领域的门槛。 架构强调高可用性,多数据中心部署确保数据与任务备份,即使遭遇故障,也能无缝切换至备用系统,维持模型训练不中断,保护长期项目免受时间与资源损耗,确保进展与收益。 大模型应用开发,帮助开发者快速构建智能Agents 在企业中,项目级复杂任务通常需要理解任务并拆解成多个问题再进行决策,然后调用多个子系统去执行。MaaS基于多个优质昇腾云开源大模型,提供优质Prompt 模板,让大模型准确理解业务意图,分解复杂任务,沉淀出丰富的多个智能Agent,帮助企业快速智能构建和部署大模型应用。 父主题: 功能介绍
  • Standard资源管理 在使用ModelArts进行AI开发时,您可以选择使用如下两种资源池: 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建一个专属资源池,然后在AI开发过程中选择此专属资源池。其中专属资源池分为弹性集群和弹性裸金属。 弹性集群又分为Standard弹性集群与Lite弹性集群。 Standard弹性集群提供独享的计算资源,使用ModelArts Standard开发平台的训练作业、部署模型以及开发环境时,通过Standard弹性集群的计算资源进行实例下发。 Lite弹性集群面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。请参见弹性集群k8s Cluster。 弹性裸金属:弹性裸金属提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装GPU&NPU相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite Server。 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。 专属资源池和公共资源池的能力差异 专属资源池为用户提供独立的计算集群、网络,不同用户间的专属资源池物理隔离,公共资源池仅提供逻辑隔离,专属资源池的隔离性、安全性要高于公共资源池。 专属资源池用户资源独享,在资源充足的情况下,作业是不会排队的;而公共资源池使用共享资源,在任何时候都有可能排队。 专属资源池支持打通用户的网络,在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如,在创建训练作业时选择打通了网络的专属资源池,训练作业创建成功后,支持在训练时访问SFS中的数据。 专属资源池支持自定义物理节点运行环境相关的能力,例如GPU/Ascend驱动的自助升级,而公共资源池暂不支持。 专属资源池有什么能力? 新版专属资源池是一个全面的技术和产品的改进,主要能力提升如下: 专属资源池类型归一:不再区分训练、推理专属资源池。如果业务允许,您可以在一个专属资源池中同时跑训练和推理的Workload。同时,也可以通过“设置作业类型”来开启/关闭专属资源池对特定作业类型的支持。 自助专属池网络打通:可以在ModelArts管理控制台自行创建和管理专属资源池所属的网络。若需要在专属资源池的任务中访问自己VPC上的资源,可通过“打通VPC”来实现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。 父主题: Standard功能介绍
  • Standard Workflow Workflow是开发者基于实际业务场景开发用于部署模型或应用的流水线工具,核心是将完整的机器学习任务拆分为多步骤工作流,每个步骤都是一个可管理的组件,可以单独开发、优化、配置和自动化。Workflow有助于标准化机器学习模型生成流程,使团队能够大规模执行AI任务,并提高模型生成的效率。 ModelArts Workflow提供标准化MLOps解决方案,降低模型训练成本 支持数据标注、数据处理、模型开发/训练、模型评估、应用开发、应用评估等步骤 自动协调工作流步骤之间的所有依赖项,提供运行记录、监控、持续运行等功能 针对工作流开发,Workflow提供流水线需要覆盖的功能以及功能需要的参数描述,供用户使用SDK对步骤以及步骤之间的关系进行定义 针对工作流复用,用户可以在开发完成后将流水线固化下来,提供下次或其他人员使用,同时无需关注流水线中包含什么算法或如何实现 图1 Workflow流程 父主题: Standard功能介绍
  • 产品优势 ModelArts服务具有以下产品优势。 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理 大规模分布式训练能力,加速大模型研发 提供高性价比国产算力 多年软硬件经验沉淀,AI场景极致优化 加速套件,训练、推理、数据访问多维度加速 一站式端到端生产工具链,一致性开发体验 开“箱”即用,涵盖AI开发全流程,包含数据处理、模型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。 支持本地 IDE+ModelArts 插件远程开发能力,线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理 统一管理 AI 开发全流程,提升开发效率,记录模型构建实验全流程 多场景部署,灵活满足业务需求 支持云端/边端部署等多种生产环境 支持在线推理、批量推理、边缘推理多形态部署 AI工程化能力,支持AI全流程生命周期管理 支持MLOps能力,提供数据诊断、模型监测等分析能力,训练智能 日志分析 与诊断 容错能力强,故障恢复快 提供机柜、节点、加速卡、任务多场景故障感知和检测 提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力 SSH直达节点和容器,一致体验
  • 推理部署安全最佳实践 外部依赖服务 ModelArts推理使用中需要用到一些其他的云服务,当您需要授权时,可以根据实际所需的权限范围进行自定义授权,其中模型管理依赖OBS相关权限,租户可以细化权限到具体ModelArts使用的桶。 内部资源授权 ModelArts推理当前已支持细粒度授权,租户可以根据实际的权限要求对子用户进行相应的权限配置,限制某些资源的管理,实现权限最小化。 AI应用管理 使用从训练或者从OBS中选择创建AI应用,推荐用户使用动态加载的方式导入,动态加载实现了模型和镜像的解耦,便于进行模型资产的保护。用户需要及时更新AI应用的相关依赖包,解决开源或者第三方包的漏洞。AI应用相关的敏感信息,需要解耦开,在“在线服务”部署时进行相应配置。请选择ModelArts推荐的运行时环境,旧的运行环境官方已停止维护,可能存在安全漏洞。 使用从容器镜像中选择创建AI应用时,在构建镜像环节,需要采用业界公开的可信基础镜像,例如来自OpenEuler,Ubuntu等的发布镜像,镜像运行用户需要创建非root普通用户,不能采用root用户直接运行。镜像中只安装运行时依赖的安全包,减少镜像的大小,同时安装包需要更新到最新的无漏洞版本。敏感信息和镜像解耦,可以在服务部署时配置,不能直接硬编码在Dockerfile中。定期针对镜像进行安全扫描,及时安装补丁修复漏洞。增加健康检查接口,确保健康检查可以正常返回业务状态,便于告警和故障恢复。容器应该采用https的安全传输通道,并使用业界推荐的加密套件保证业务数据的安全性。 部署上线 部署服务时,需要注意为服务设置合适计算节点规格,防止服务因资源不足而过载或者资源过大而浪费。尽量避免在容器中监听其他端口,有本地内部需要访问的其他端口,监听在localhost上。避免通过环境变量传递敏感信息,需要通过加密组件进行加密后再通过环境变量配置。 部署在线服务,当打开APP认证时,app认证密钥是在线服务的另一个访问凭据,需要妥善保存app密钥,防止泄露。
  • 计费说明 ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署AI应用,管理全周期AI工作流。 ModelArts服务的计费方式简单、灵活,您既可以选择按实际使用时长计费,也可以选择更经济的按包周期(包年/包月)计费方式。详细的费用价格请参见产品价格详情。 更多详细的计费介绍,请参见《计费说明》文档。
  • ModelArts在线服务更新 对于已部署的推理服务,ModelArts支持通过更换AI应用的版本号,实现服务升级。 推理服务有三种升级模式:全量升级、滚动升级(扩实例)和滚动升级(缩实例)。了解三种升级模式的流程,请参见图1。 全量升级 需要额外的双倍的资源,先全量创建新版本实例,然后再下线旧版本实例。 滚动升级(扩实例) 需额外消耗部分实例资源用于滚动升级,扩实例越大,升级速度越快。 滚动升级(缩实例) 通过腾出部分实例资源用于滚动升级,缩实例数越大,升级速度越快,造成业务中断可能性越大。 图1 推理服务升级流程 推理服务更新升级的具体操作请参见升级服务。
  • 安全防护套件覆盖和使用 堡垒机 ,增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用,采用了统一推荐的Web安全组件防范Web安全风险,并且通过WAF进行安全防护。 所有承载ModelArts服务的主机部署了主机安全防护产品。包括不限于华为自研HSS或计算安全平台 CS P。 ModelArts服务部署了 漏洞扫描服务 并自行进行例行扫描,能快速发现漏洞并能及时修复。 ModelArts服务通过统一的安全管控平台对云上资源进行安全运维。 ModelArts服务部署了 态势感知 服务,以感知攻击现状,还原攻击历史,同时及时发现合规风险,对威胁告警及时响应。 ModelArts承载关键业务的对外开放EIP部署了高防服务,以防大流量攻击。 ModelArts对存放关键数据的数据库部署了数据库安全服务。
  • 云服务防抖动和遭受攻击后的应急响应/恢复策略 ModelArts服务具备租户资源隔离能力,避免单租户资源被攻击导致爆炸半径大,影响其他租户。 ModelArts服务具备资源池和隔离能力,避免单租户资源被攻击导致爆炸半径过大风险。 ModelArts服务定义并维护了性能规格用于自身的抗攻击性。例如:设置API访问限制,防止恶意接口调用等场景。 ModelArts服务在攻击场景下,具备告警能力及自我保护能力。 ModelArts服务提供了业务异常行为感知能力。例如运营平台异常数据感知,安全日志集成等。 ModelArts服务具备遭受攻击时的风险控制和应急响应能力。例如快速识别恶意租户,恶意IP。 ModelArts服务具备攻击流量停止后,快速恢复业务的能力。
  • 云服务 域名 使用安全及租户内容安全策略 ModelArts服务使用的租户可见域名、租户不可见域名均满足如下安全相关要求,避免了域名使用过程中的合规和钓鱼风险。其中: 租户可见域名:指租户可访问的域名,需要格外重视安全性和合规性。 租户不可见域名:指华为云服务在内网相互调用使用的域名,外部用户无法访问到对应的权威DNS服务器;或者Internet受限访问域名,只允许华为办公网络黄&绿区华为员工及合作方或外包人员访问的域名。 华为云基础域名安全使用,避免直接为租户分配基础域名。 华为云服务在内网互相调用使用的域名,避免使用外部已备案域名。 所有中国大陆境内下沉POD区服务使用的域名已完成备案。 所有中国大陆境内下沉POD区的服务均遵守国家《互联网信息服务管理办法》要求。
  • AI Gallery支持审计的关键操作列表 表6 AI Gallery支持审计的关键操作列表 操作名称 资源类型 事件名称 发布资产 ModelArts_Market create_content 修改资产信息 ModelArts_Market modify_content 发布资产新版本 ModelArts_Market add_version 订阅资产 ModelArts_Market subscription_content 收藏资产 ModelArts_Market star_content 取消收藏资产 ModelArts_Market cancel_star_content 点赞资产 ModelArts_Market like_content 取消点赞资产 ModelArts_Market cancel_like_content 发布实践 ModelArts_Market publish_activity 报名实践 ModelArts_Market regist_activity 修改个人资料 ModelArts_Market update_user
  • 服务管理支持审计的关键操作列表 表5 服务管理支持审计的关键操作列表 操作名称 资源类型 事件名称 部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service startOrStopService 启停边缘服务节点 service startOrStopNodesService 添加用户访问密钥 service addAkSk 删除用户访问密钥 service deleteAkSk 创建专属资源池 cluster createCluster 删除专属资源池 cluster deleteCluster 添加专属资源池节点 cluster addClusterNode 删除专属资源池节点 cluster deleteClusterNode 获取专属资源池创建结果 cluster createClusterResult
  • 训练作业支持审计的关键操作列表 表3 训练作业支持审计的关键操作列表 操作名称 资源类型 事件名称 创建训练作业 ModelArtsTrainJob createModelArtsTrainJob 创建训练作业版本 ModelArtsTrainJob createModelArtsTrainVersion 停止训练作业 ModelArtsTrainJob stopModelArtsTrainVersion 更新训练作业描述 ModelArtsTrainJob updateModelArtsTrainDesc 删除训练作业版本 ModelArtsTrainJob deleteModelArtsTrainVersion 删除训练作业 ModelArtsTrainJob deleteModelArtsTrainJob 创建训练作业参数 ModelArtsTrainConfig createModelArtsTrainConfig 更新训练作业参数 ModelArtsTrainConfig updateModelArtsTrainConfig 删除训练作业参数 ModelArtsTrainConfig deleteModelArtsTrainConfig 创建可视化作业 ModelArtsTensorboardJob createModelArtsTensorboardJob 删除可视化作业 ModelArtsTensorboardJob deleteModelArtsTensorboardJob 更新可视化作业描述 ModelArtsTensorboardJob updateModelArtsTensorboardDesc 停止可视化作业 ModelArtsTensorboardJob stopModelArtsTensorboardJob 重启可视化作业 ModelArtsTensorboardJob restartModelArtsgTensorboardJob
  • AI应用管理支持审计的关键操作列表 表4 AI应用管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建AI应用 model addModel 更新AI应用 model updateModel 删除AI应用 model deleteModel 添加转换任务 convert addConvert 更新转换任务 convert updateConvert 删除转换任务 convert deleteConvert
  • 数据管理支持审计的关键操作列表 表1 数据管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建数据集 dataset createDataset 删除数据集 dataset deleteDataset 更新数据集 dataset updateDataset 发布数据集版本 dataset publishDatasetVersion 删除数据集版本 dataset deleteDatasetVersion 同步数据源 dataset syncDataSource 导出数据集 dataset exportDataFromDataset 创建自动标注任务 dataset createAutoLabelingTask 创建自动分组任务 dataset createAutoGroupingTask 创建自动部署任务 dataset createAutoDeployTask 导入样本到数据集 dataset importSamplesToDataset 创建数据集标签 dataset createLabel 更新数据集标签 dataset updateLabel 删除数据集标签 dataset deleteLabel 删除数据集标签和对应的样本 dataset deleteLabelWithSamples 添加样本 dataset uploadSamples 删除样本 dataset deleteSamples 停止自动标注任务 dataset stopTask 创建团队标注任务 dataset createWorkforceTask 删除团队标注任务 dataset deleteWorkforceTask 启动团队标注验收的任务 dataset startWorkforceSamplingTask 通过/驳回/取消验收任务 dataset updateWorkforceSamplingTask 提交验收任务的样本评审意见 dataset acceptSamples 给样本添加标签 dataset updateSamples 发送邮件给团队标注任务的成员 dataset sendEmails 接口人启动团队标注任务 dataset startWorkforceTask 更新团队标注任务 dataset updateWorkforceTask 给团队标注样本添加标签 dataset updateWorkforceTaskSamples 团队标注审核 dataset reviewSamples 创建标注成员 workforce createWorker 更新标注成员 workforce updateWorker 删除标注成员 workforce deleteWorker 批量删除标注成员 workforce batchDeleteWorker 创建标注团队 workforce createWorkforce 更新标注团队 workforce updateWorkforce 删除标注团队 workforce deleteWorkforce 自动创建IAM委托 IAM createAgency 标注成员登录labelConsole标注平台 labelConsoleWorker workerLoginLabelConsole 标注成员登出labelConsole标注平台 labelConsoleWorker workerLogOutLabelConsole 标注成员修改labelConsole平台密码 labelConsoleWorker workerChangePassword 标注成员忘记labelConsole平台密码 labelConsoleWorker workerForgetPassword 标注成员通过url重置labelConsole标注密码 labelConsoleWorker workerResetPassword
  • 开发环境支持审计的关键操作列表 表2 开发环境支持审计的关键操作列表 操作名称 资源类型 事件名称 创建Notebook Notebook createNotebook 删除Notebook Notebook deleteNotebook 打开Notebook Notebook openNotebook 启动Notebook Notebook startNotebook 停止Notebook Notebook stopNotebook 更新Notebook Notebook updateNotebook 删除NotebookApp NotebookApp deleteNotebookApp 切换CodeLab规格 NotebookApp updateNotebookApp
  • 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪任务后,CTS可记录ModelArts的管理事件和数据事件用于审计。 CTS的详细介绍和开通配置方法,请参见CTS快速入门。 CTS支持追踪的ModelArts管理事件和数据事件列表,请参见支持云审计的关键操作、开发环境支持审计的关键操作列表、训练作业支持审计的关键操作列表、AI应用管理支持审计的关键操作列表、服务管理支持审计的关键操作列表。 图1 云审计服务
  • 数据保护技术 ModelArts通过多种数据保护手段和特性,保障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。 传输中的数据保护 在ModelArts中导入AI应用时,支持用户自己选择HTTP和HTTPS两种传输协议,为保证数据传输的安全性,推荐用户使用更加安全的HTTPS协议。 数据完整性检查 推理部署功能模块涉及到的用户模型文件和发布到AIGallery的资产在上传过程中,有可能会因为网络劫持、数据缓存等原因,存在数据不一致的问题。ModelArts提供通过计算SHA256值的方式对上传下载的数据进行一致性校验。 数据隔离机制 在ModelArts的开发环境中创建Notebook实例时,数据存储是按照租户隔离,租户之间互相看不到数据。 父主题: 安全
共100000条