华为云用户手册

  • 应用场景 客户痛点 充电桩元器件和设备生产商 典型客户:国电南瑞、科士达、盛弘股份、科陆电子、许继电气、和顺电气等。 客户痛点:主要部件为标准电气产品、企业间同质性高,不考虑营销售后服务、互联网+的话,很容易被淘汰主要部件为标准电气产品、企业间同质性高,不考虑营销售后服务、互联网+的话,很容易被淘汰。 充电站运营商、能源企业、主机厂等 典型客户:第三方充电站运营商:特锐德、星星充电、云快充等;国有能源企业:国家电网、中国普天等;新能源主机厂:特斯拉、蔚来、上汽、比亚迪、小鹏等;公共充电桩运营商:依威能源、汇充电、深圳车电网、上汽安悦、中国普天等。 客户痛点:无统一运维平台;充电设施整体利用率低、离线率高;主要依靠人工运维的效率低,流程复杂,运维成本高;充电桩与车辆充电接口不兼容,车桩不匹配;充电服务信息无法互联互通,导致充电设施位置、状态、运营商信息不准确;无序充电限制充电桩规模接入电网;电动汽车充电基础设施发展规划落后。 业务效果 提高设备生命周期:设备接入、数据融合、智能调度 ,统一部署的 物联网平台 ,实现四网融合,提高充电桩运维效率,提高设备生命周期; 提高运维效率:统一监测、高效管理, 实现统一的监测、控制和管理、 数据集中管理、数据源融合共享、实现跨系统协同联动、实现系统整体功能提升,业务流程融合再造、数据分析、发现问题、辅助决策、应急指挥; 保障安全需求:保障终端安全、接入安全、平台安全、应用安全、安全管控 应用行业推荐 通过华为云中立、安全、可信、持续创新的云服务,在云上快速部署智慧充电站平台,为传统充电桩制造业商家、运营商家、电力行业、房地产与建筑行业和政府乡镇、高速公路服务区等需求充电站管理平台的厂商提供状态可视、功能齐全、运维管理简便、且规模可自由伸缩的平台。特别适合如下类型和行业的自用和销售: 充电场站建设方:针对电力行业有充电设施管理(含充电桩运维、分布式光伏发电、光储充一体化、智能微电网)和场站管理需求的国企内部自用,可规范管理旗下充电站的运维管理,解决维修工单审批复杂、状态不可视的弊端,避免僵尸桩,优化国企内部管理机构、极大减少运维人力; 住宅及商业综合体停车场:房地产与建筑行业中商业综合体、楼宇建筑在建设中高档地下停车场时,智慧充电站平台就可针对停车场管理,充电桩做高效可行的管理和运维,极大的提高住宅小区、公寓的居住体验,成为房地产招商的一大亮点; 园区充电站:当政府建设智慧社区、示范乡镇、示范区、示范村、美丽乡村、国家生态文明试验区、大气污染防控重点区域的高速公路服务区快充站时,智慧充电站平台即可发挥极大作用; 充电桩制造商:充电桩制造商对充电桩管理、配套设施建设有需求时可用该平台,类似企业有国电南瑞、许继电气; 充电桩运营商:充电桩运营商对检测维修、运维工单管理有需求时可用该平台,类似企业有特锐德、特来电、星星充电; 光伏储能企业:有光伏、储能、充电桩运维业务的客户,可拓展到V2G、有序充电、换电管理; 园区运维商:有园区运维项目的客户。
  • 方案架构 基于华为云底座+IoT平台+大数据平台,通过敢为集成服务能力,针对充电站运维需求,提供端到端解决方案,实现运维全流程数字化,充电站状态可视、业务可观、事件可控。帮助客户降本增效、保护投资,同时挖掘多种创新性应用。 图1 业务架构 图2 部署架构 端&边层 应用通过物联网平台获取本业务的物联网监测数据,实现对于终端设备的统一管理与运行状态的监控。同时其他各领域相关应用,可根据各自业务管理与区域业务管理的需求与特点,调用相关物联网平台提供各类服务与开放接口,实现数据共享。 网络层 网络是整个物联网的通讯基础,不同的物联网场景和设备使用不同的网络接入技术和连接方式。针对2G/3G/4G/5G/NB-IoT/Lora和有线网络等不同的感知网络均能接入。传感设备数据,与物联网平台进行数据交互时,需要采取必要网络安全保障与防护。 平台层 物联网平台实现多样化感知设备管理能力,统一传感设备资产管理、物联网感知信息汇聚与共享,实现精细化管理,同时形成物联感知管理模式的标准和规范体系。提供设备接入、设备管理、数据管理、应用管理等能力。 平台安全策略 表1 关键措施及说明 关键措施 措施描述 操作系统和数据库安全加固 物联网平台统一对操作系统的服务、密码、文件和目录权限、内核参数等进行了安全加固,并且也对数据库进行了安全加固如最小化安装,账户权限最小化,数据库文件和目录权限保护等。 WEB安全 提供了验证码,常见OWASP WEB类攻击防护如会话固定攻击防护,跨站请求伪造攻击防护等,并使用商用工具APPSCAN进行扫描。 业务认证与鉴权 采用密码+单向证书认证的方式,部分安全性较高的通道采用双向证书认证,如行业应用与IoT平台之间。其中密码长度和复杂度满足安全要求。预置的证书私钥长度为2048位,且通过私钥保护密码加密,私钥保护密码满足密码复杂度要求。证书验证包括证书签名验证,证书有效期验证,并支持替换为用户自己的数字证书。 高强度加密 物联网平台通过对用户账户密码、数据库账户密码等用户私密数据采用不可逆加密算法(如PBKDF2或者HMAC)进行加密存储,可防止彩虹表攻击。对于需要还原的密码采用AES128以上的可逆加密算法。 统一身份管理 统一身份管理将分散的用户和权限资源进行统一、集中的管理。统一身份管理将帮助实现Portal用户身份的统一认证和单点登录,改变原有各业务系统中的分散式身份认证及授权管理,实现对用户的集中认证管理,简化用户访问各系统的过程。 高可靠性设计 物联网平台的开放架构支持各个功能模块独立部署,单个功能模块出现问题时不会影响其他模块的功能。核心服务设备采用主备双机或集群方式,当主用设备出现故障时,双机系统能够自动将业务切换到备用设备,保证业务的正常运行。 权限管理 物联网平台提供维护账号的权限管理,确保维护人员在满足工作需要的情况下操作权限最小化,防止未授权人员对设备进行非法操作。 日志管理 物联网平台对日志记录和输出进行管理。通过查询日志,可以及时发现非法操作记录、设备故障原因等信息。
  • 方案优势 核心能力自主可控:全自研的物联网平台(IoT)及智能充电站运维平台(IOC),100+软件著作权,实现100%核心能力自主可控; 产品成熟,案例丰富:敢为沉淀18年行业经验,平台成熟稳定;包含充电桩、分布式光伏、能源、园区等IoT行业应用,承接国内Top1央企充电站运维平台; 方案交付周期短:业界独有低代码/零代码IoT应用开发平台(桌面端、web端、3D),项目周期缩短50%; 平台化架构,支持方案平滑演进:方案充分结合华为IoTDA、IoTEdge等平台产品,支持无缝连接应用、消息、数据、API、设备,可快速简单打通并管理遗留系统与云原生应用;具备数据入湖、 数据仓库 、BI、AI融合等能力。
  • 免费体验 AI全流程开发 如下免费使用的教程,以使用预置算法创建训练作业为例,其他类型的训练作业,操作步骤类似,不再赘述。在开始使用如下端到端流程前,请参考准备工作,完成账号注册、全局配置等操作。本文重点指导用户如何免费使用,如需学习详细操作步骤,可参见快速入门。 登录ModelArts管理控制台。 参考下载数据集,下载一个“图像分类”类型的数据集。 参考使用已有算法训练模型,上传一个可应用于图像分类的算法,如“ResNet_v1_50”算法,并创建训练作业。 在“规格”右侧的下拉框中,选择带有“限时免费”标识的规格,用于免费体验。然后单击“下一步”,根据界面提示完成训练作业的创建。选用免费规格时,其对应的计算节点个数,仅支持使用1个节点,无法修改。 等待训练作业运行结束,当训练作业的状态变为“运行成功”时,表示模型训练完成。 参考从训练中选择元模型,将训练后得到的模型导入ModelArts进行管理。 参考部署为在线服务,将导入的模型部署为在线服务。 在“计算节点规格”中,选择带有“免费规格”标识的规格,部署在线服务。 在服务管理列表中,使用免费规格创建的服务,名称右侧带“免费”标识,等待服务部署完成,当状态变为“运行中”时,表示服务已部署完成。 您可以单击服务名称进入服务详情页面,在“调用指南”查看服务的URL接口,或者进入“预测”页签,上传一张图片,进行预测识别。 使用免费规格的服务,将在1个小时后自动停止,如果您还需要使用此服务,可在“在线服务”页面,单击“启动”,系统将使用之前选择的免费规格启动服务。 图2 使用免费规格运行的服务
  • 免费规格声明(部署上线) 免费规格用于使用体验,部署的服务会在1小时后自动停止。如果您还需要使用免费规格继续运行,可重新启动服务,可再运行1小时,1小时后仍然会自动停止。72小时内没有再次启动,会释放资源,请注意文件备份。 免费规格的资源是有限的,当使用人数较多时,会出现长时间的排队。如果希望获得更佳的体验,请选择付费规格。 使用“部署上线”功能时,可用的免费规格有2种,1个免费CPU规格,1个免费GPU规格。但是两种规格不能同时在一个服务中使用。 同一个账号下,任意一种免费规格只能在1个服务中使用免费规格。如果一个部署上线已使用了一种免费规格,不管是运行中还是停止状态,其他部署上线任务都无法再使用这个免费规格。 只有部署为“在线服务”时,支持使用免费规格。“批量服务”和“边缘服务”暂时无法使用免费规格进行体验。 使用免费规格的服务,可以通过修改操作,将资源规格修改为收费的规格,也可以修改为另一种免费规格。但是已经在使用收费规格的服务,无法修改为免费规格。 仅在“华北-北京四”区域提供了免费规格,请注意您使用的区域。
  • 免费规格声明(模型训练) 免费规格用于使用体验,训练作业会在1小时后自动停止,因此建议设置最大训练时长为1小时。 限时免费的规格,性能有限,如果您的数据量较大,或者训练时长会超过1小时,建议选择收费的计算规格用于模型训练。 免费规格的资源是有限的,当使用人数较多时,会出现长时间的排队。如果希望获得更佳的体验,请选择付费规格。 训练作业功能,仅提供了GPU类型的免费规格。 同一个账号只能在一个训练作业中使用免费规格。等训练作业结束后,其他训练作业可重新使用免费规格。 仅在“华北-北京四”区域提供了免费规格,请注意您使用的区域。
  • 使用场景 在AI全流程开发过程中,分为如下几个步骤: 准备数据:ModelArts官方发布在AI Gallery的数据集。 算法开发或预置算法:ModelArts官方发布在AI Gallery的算法,均可免费使用。如果您自己在本地开发算法,则不涉及费用。 模型训练:在创建训练作业时,可选择免费规格,完成模型训练。 导入模型:ModelArts提供的模型导入及管理功能,不收费。 部署上线:将导入的模型部署为在线服务时,可选择免费规格的资源,将模型部署为服务。 针对之前的ModelArts,如果您想端到端体验AI全流程开发,在“模型训练”和“部署上线”时,都需要付费体验。当前ModelArts提供免费规格后,整个AI开发过程,可端到端免费体验。 图1 AI全流程开发过程中的免费规格 由于免费规格仅针对ModelArts服务,在使用过程中,需使用OBS存储数据或模型时,会根据OBS计费规则进行计费。
  • 免费规格声明(部署上线) 免费规格仅用于使用体验,部署的服务会在1小时后自动停止(不包括模型发布时间)。如果您还需要使用免费规格继续运行,可重新启动服务,可再运行1小时,1小时后仍然会自动停止。 免费规格的资源是有限的,当使用人数较多时,会出现长时间的排队。如果希望获得更佳的体验,建议选择付费规格。 任意一种免费规格只能在1个服务中使用免费规格。如果已存在一个Workflow工作流部署上线使用了免费规格,不管是运行中还是停止状态,其他部署上线任务都无法再使用这个免费规格。 仅在“华北-北京四”区域提供了免费规格,请注意您使用的区域。
  • 免费规格声明(模型训练) Workflow训练免费规格用于使用体验,训练作业会在1小时后自动停止(不包括模型发布时间),因此建议设置最大训练时长为1小时。 限时免费的规格,性能有限,如果您的数据量较大,或者训练时长会超过1小时,建议选择收费的计算规格用于模型训练。 免费规格的资源是有限的,当使用人数较多时,会出现长时间的排队。如果希望获得更佳的体验,请选择付费规格。 只能在1个训练作业中使用免费规格。等训练作业结束后,其他训练作业可重新使用免费规格。 仅在“华北-北京四”区域提供了免费规格,请注意您使用的区域。
  • 使用说明 ModelArts在Notebook、Workflow、自动学习、全流程开发(推理、训练)中提供了免费的资源可供您免费体验AI开发,具体可参见: 免费体验CodeLab 免费体验Workflow 免费体验自动学习 免费体验AI全流程开发 在使用ModelArts进行开发时,在模型训练和模型部署上线阶段,会用到计算资源,具体可参见按需付费使用。 ModelArts提供了更具优惠的套餐包,您可以根据需要,选购不同规格的套餐包,具体可参见购买套餐包。
  • Workflow 在Workflow的“模型训练”和“服务部署”阶段,可选择不同规格的资源进行训练和部署。Workflow也提供了 消息通知 的功能,可在事件发生时发送消息通知。 模型训练-资源配置:选择不同规格的资源,产生的费用不同,具体费用以控制台为准。 服务部署:选择不同规格的资源,产生的费用不同,具体费用以控制台为准。 消息通知:开启消息通知时,会产生费用,具体费用以消息通知服务的计费为准。 Workflow的总费用 = 训练使用资源产生的费用 + 服务部署使用资源产生的费用 + 开启消息通知产生的费用
  • 自动学习(新版) 在自动学习(新版)的“模型训练”和“部署上线”阶段,可选择不同规格的资源。自动学习(新版)也提供了消息通知的功能,可在事件发生时发送消息通知。 模型训练:在创建项目时,选择不同的训练规格,产生的费用不同,具体费用以控制台为准。 服务部署:项目创建成功后,在部署服务时,选择不同规格的资源池,产生的费用不同,具体费用以控制台为准。 消息通知:开启消息通知时,会产生费用,具体费用以消息通知服务的计费为准。 图1 开启消息通知 自动学习(新版)的总费用 = 训练规格使用资源产生的费用 + 部署服务使用资源产生的费用 + 开启消息通知产生的费用
  • OBS简介 对象存储服务 OBS是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。对象存储服务OBS的基本组成是桶和对象。桶是OBS中存储对象的容器,每个桶都有自己的存储类别、访问权限、所属区域等属性,用户在互联网上通过桶的访问 域名 来定位桶。对象是OBS中数据存储的基本单位。 对ModelArts来说,OBS服务是一个数据存储中心,因为ModelArts本身目前没有数据存储的功能。AI开发过程中的输入数据、输出数据、中间缓存数据都可以在OBS桶中进行存储、读取。 因此,在使用ModelArts之前您需要创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
  • 操作步骤 登录OBS管理控制台,在桶列表页面右上角单击“创建桶”,创建OBS桶。例如,创建名称为“c-flowers”的OBS桶。 图1 创建桶 创建桶的区域需要与ModelArts所在的区域一致。例如:当前ModelArts在华北-北京一区域,在对象存储服务创建桶时,请选择华北-北京一。如何查看OBS桶与ModelArts的所处区域,请参见查看OBS桶与ModelArts是否在同一区域。 请勿开启桶加密,ModelArts不支持加密的OBS桶,会导致ModelArts读取OBS中的数据失败。 在桶列表页面,单击桶名称,进入该桶的概览页面。 图2 桶列表 单击左侧导航的“对象”,在对象页面单击新建文件夹,创建OBS文件夹。例如,在已创建的OBS桶“c-flowers”中新建一个文件夹“flowers”。具体请参见新建文件夹章节。 图3 新建文件夹
  • 购买套餐包 套餐包的资源均为公共资源,如果您需要专属资源,可在ModelArts管理控制台中购买专属资源池,具体可参见创建专属资源池。 已购买套餐包不支持退订,购买前请确认。 登录ModelArts管理控制台,在页面右侧单击“购买套餐包”,进入“购买套餐包”页面。 在“购买套餐包”页面,您可以在“AI开发”选择不同规格的套餐包。 根据业务需求选择套餐包,单击“加入购物车”,可以选择多个规格套餐包,在页面右侧的资源包清单中会列出购买的所有套餐包费用明细,单击“立即购买”。 进入规格确认页面,规格确认无误后,单击“去支付”,然后在支付页面完成付款,付款成功后即完成套餐包的购买。
  • 删除授权 为了更好的管理您的授权,您可以删除某一 IAM 用户的授权,也可批量清空所有用户的授权。 删除某一用户的授权 在“全局配置”页面,展示当前账号下为其IAM用户配置的授权列表,针对某一用户,您可以单击“操作”列的“删除”,输入“DELETE”后单击“确认”,可删除此用户的授权。删除生效后,此用户将无法继续使用ModelArts的相关功能。 批量清空所有授权 在“全局配置”页面,单击授权列表上方的“清空授权”,输入“DELETE”后单击“确认”,可删除当前账号下的所有授权。删除生效后,此账号及其所有IAM子用户将无法继续使用ModelArts的相关功能。
  • 约束与限制 华为云账号 只有华为云账号可以使用委托授权,可以为当前账号授权,也可以为当前账号下的所有IAM用户授权。 多个IAM用户或账号,可使用同一个委托。 一个账号下,最多可创建50个委托。 对于首次使用ModelArts的新用户,请直接新增委托即可。一般用户新增普通用户权限即可满足使用要求。如果有精细化权限管理的需求,可以自定义权限按需设置。 IAM用户 如果已获得委托授权,则可以在全局配置页面中查看到已获得的委托授权信息。 如果未获得委托授权,当打开“访问授权”页面时,ModelArts会提醒您当前用户未配置授权,需联系此IAM用户的管理员账号进行委托授权。
  • 修改授权权限范围 在查看授权详情时,如果想要修改授权范围,可以在权限详情页单击“去IAM修改委托权限”。 图6 去IAM修改委托权限 进入IAM控制台的委托页面。找到对应的委托信息,修改该委托的基本信息,主要是持续时间。“持续时间”可以选择永久、1天,或者自定义天数,例如30天。 图7 手动创建的委托 在授权记录页面单击“授权”,勾选要配置的策略,单击下一步设置最小授权范围,单击“确定”,完成授权修改。 设置最小授权范围时,可以选择指定的区域,也可以选择所有区域,即不设置范围。
  • 常见问题 首次使用ModelArts如何配置授权? 直接选择“新增委托”中的“普通用户”权限即可,普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。 访问密钥授权哪去了? 全局配置中使用密钥委托授权功能已下线,对于之前使用访问密钥授权的老用户,建议修改为委托授权方式。在全局配置页面,一键“清空授权”,然后再使用委托授权完成授权配置。 如何获取访问密钥AK/SK? 如果在其他功能(例如PyCharmtoolKit/VSCode登录,访问在线服务等)中使用到访问密钥AK/SK认证,获取AK/SK方式请参考如何获取访问密钥章节。 如何删除已有委托列表下面的委托名称? 图8 已有委托 需要前往 统一身份认证 服务IAM控制台的委托页面删除。 图9 统一身份认证 进入ModelArts控制台的某个页面时,为什么会提示权限不足? 图10 页面提示权限不足 可能原因是用户委托权限配置不足或模块能力升级,需要更新授权信息。根据界面操作提示追加授权即可。 为什么专属资源池需要增加CCE、BMS、IMS、DEW相关授权? 专属资源池能力升级,新上线ModelArts Lite功能,这项功能需要用户授权允许ModelArts访问云容器引擎服务CCE、裸金属服务BMS、 镜像服务 IMS和密钥管理服务DEW。当用户未使用ModelArts Lite功能时,可以不增加CCE、BMS、IMS、DEW授权,也不影响原有专属资源池的使用。 目前ModelArts Lite功能是“受邀开通”状态,作为企业用户您可以咨询您对口的技术支持开通或提工单咨询。
  • 场景描述 ModelArts与其他服务类似,对外暴露的每个功能,都通过IAM的权限来进行控制。比如,用户(此处指IAM子用户,而非租户)希望在ModelArts创建训练作业,则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作(无论界面操作还是API调用)。 而ModelArts还有一个特殊的地方在于,为了完成AI计算的各种操作,AI平台在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是一个“委托”的过程。用户授权ModelArts再代表自己访问特定的云服务,以完成其在ModelArts平台上执行的AI计算任务。 ModelArts提供了一键式自动授权功能,用户可以在ModelArts的全局配置功能中,快速完成委托授权,由ModelArts为用户自动创建委托并配置到ModelArts服务中。 一键式自动授权方式为保证使用业务过程中有足够的权限,基于依赖服务的预置系统策略指定授权范围,创建的委托的权限比较大,基本覆盖了依赖服务的全部权限。如果您需要对委托授权的权限范围进行精确控制,请使用定制化委托授权。更多权限控制的内容请参见权限管理章节。 本章节主要介绍一键式自动授权方式。一键式自动授权方式支持给IAM子用户、联邦用户(虚拟IAM用户)、委托用户和所有用户授权。
  • 使用场景 自动学习项目分为“数据标注”、“模型训练”和“部署上线”。针对“数据标注”步骤,ModelArts服务并不会产生费用,针对“模型训练”和“部署上线”步骤,不管是训练还是部署,都需要使用计算资源,需要根据您选择的资源进行计费。当前,ModelArts推出了限时免费的计算规格,让您免费体验自动学习功能。 图1 自动学习提供的免费规格 自动学习训练免费规格资源不包含OBS存储资源费用。存储在OBS的数据,按您使用的OBS规格进行计费。
  • 免费规格声明(部署上线) 免费规格仅用于使用体验,部署的服务会在1小时后自动停止(不包括模型发布时间)。如果您还需要使用免费规格继续运行,可重新启动服务,可再运行1小时,1小时后仍然会自动停止。 免费规格的资源是有限的,当使用人数较多时,会出现长时间的排队。如果希望获得更佳的体验,建议选择付费规格。 使用“部署上线”功能时,可用的免费规格有“自动学习免费规格(CPU)”或“自动学习免费规格(GPU)”。 任意一种免费规格只能在1个服务中使用免费规格。如果一个自动学习项目下的部署上线已使用了一种免费规格,不管是运行中还是停止状态,其他部署上线任务都无法再使用这个免费规格。 仅在“华北-北京四”区域提供了免费规格,请注意您使用的区域。
  • 免费规格声明(模型训练) 自动学习训练免费规格用于使用体验,训练作业会在1小时后自动停止(不包括模型发布时间),因此建议设置最大训练时长为1小时。 限时免费的规格,性能有限,如果您的数据量较大,或者训练时长会超过1小时,建议选择收费的计算规格用于模型训练。 免费规格的资源是有限的,当使用人数较多时,会出现长时间的排队。如果希望获得更佳的体验,请选择付费规格。 只能在1个训练作业中使用免费规格。等训练作业结束后,其他训练作业可重新使用免费规格。 仅在“华北-北京四”区域提供了免费规格,请注意您使用的区域。
  • 套餐包简介 ModelArts服务支持购买套餐包,根据用户选择使用的资源不同进行收费。您可以根据业务需求选择使用不同规格的套餐包。 ModelArts提供了AI全流程开发的套餐包,面向有AI基础的开发者,提供机器学习和深度学习的算法开发及部署全功能,包含数据处理、模型开发、模型训练、模型管理和部署上线流程。涉及计费项包含:模型开发环境(Notebook)、模型训练(训练作业)、部署上线(在线服务)。 父主题: 购买套餐包
  • 使用限制 套餐包在购买和使用时的限制如下: 套餐包和购买时选定的区域绑定,套餐包只能使用于购买时选定的区域,且只能用于公共资源池,专属资源池不可用。当前只有部分区域可选,具体以控制台为准。 计费时将优先使用套餐包的额度,超出额度部分将以当月累计使用量所在的阶梯价计费。套餐包的额度为购买日起有效期内的可用资源数。套餐包的有效时长具体以控制台为准。 已购买套餐包不支持退订,购买前请确认。 已购买套餐包是按需套餐包,其资源为公共资源。 用户按照业务来规划时长与数量,最终用户买到的是:总时长 = 购买数量 * 购买时长。在实际使用过程中,会对时长产生扣除;扣除时长 = 所有任务消耗时长的总和,每个任务消耗的时长 = 单任务节点个数 * 任务运行时间。 父主题: 购买套餐包
  • 权限列表 为了便于理解权限相关内容,建议先阅读ModelArts权限管理基本概念。 表1 服务授权列表 待授权的服务 适用场景 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 如果需要给子用户开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts FullAccess,请谨慎配置。 ModelArts FullAccess权限和ModelArts CommonOperations权限只能二选一,不能同时选。 SFS弹性文件服务 弹性文件服务SFS Turbo的所有权限。使用SFS服务时需要配置。 E CS 弹性云服务器 弹性云服务器所有权限。使用ECS服务时需要配置。 SWR容器镜像 仓库 容器镜像仓库所有权限。使用SWR服务时需要配置。同时,还需开通SWR组织权限。 VPC虚拟私有云 子用户在创建ModelArts的专属资源池过程中,如果需要开启自定义网络配置,需要配置VPC权限。 DEW密钥管理服务 当子用户使用ModelArts Notebook的SSH远程功能时,需要配置子用户密钥管理服务的使用权限。 OBS对象存储服务 具有对象存储服务(OBS)查看桶列表、获取桶元数据、列举桶内对象、查询桶位置、上传对象、获取对象、删除对象、获取对象ACL等对象基本操作权限。
  • 权限列表 子用户的权限,由主用户来控制,主用户通过IAM的权限配置功能设置用户组的权限,从而控制用户组内的子用户的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。 表1 服务授权列表 待授权的服务 授权说明 IAM权限设置 是否必选 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 ModelArts CommonOperations 必选 如果需要给子用户开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts FullAccess,请谨慎配置。 ModelArts FullAccess 可选 ModelArts FullAccess权限和ModelArts CommonOperations权限只能二选一,不能同时选。 OBS对象存储服务 授予子用户使用OBS服务的权限。ModelArts的数据管理、开发环境、训练作业、模型推理部署均需要通过OBS进行数据中转。 OBS OperateAccess 必选 SWR容器镜像仓库 授予子用户使用SWR服务权限。ModelArts的 自定义镜像 功能依赖镜像服务SWR FullAccess权限。 SWR OperateAccess 必选 密钥管理服务 当子用户使用ModelArts Notebook的SSH远程功能时,需要配置子用户密钥管理服务的使用权限。 KMS CMKFullAccess 可选 IEF智能边缘平台 授予子用户智能边缘平台使用权限,ModelArts的边缘服务依赖智能边缘平台,要求配置Tenant Administrator权限。 Tenant Administrator 可选 CES 云监控 授予子用户使用CES 云监控服务 的权限。通过CES 云监控 可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN 消息服务 授予子用户使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。 SMN FullAccess 可选 VPC虚拟私有云 子用户在创建ModelArts的专属资源池过程中,如果需要开启自定义网络配置,需要配置VPC权限。 VPC FullAccess 可选 SFS弹性文件服务 授予子用户使用SFS服务的权限,ModelArts的专属资源池中可以挂载SFS系统作为开发环境或训练的存储。 SFS Turbo FullAccess SFS FullAccess 可选
  • Step2 使用数据集测试动态benchmark 切换到benchmark虚拟环境测试,命令如下。动态benchmark验证是在benchmark虚拟环境中操作。 conda activate benchmark 执行脚本benchmark_serving.py测试动态benchmark。具体操作命令如下,可以根据参数说明修改参数。 cd benchmark_tools python benchmark_serving.py --backend tgi --host 127.0.0.1 --port 8085 --dataset custom_dataset.json --dataset-type custom \ --tokenizer /path/to/tokenizer --request-rate 0.01 1 2 4 8 10 20 --num-prompts 10 1000 1000 1000 1000 1000 1000 \ --max-tokens 4096 --max-prompt-tokens 3768 --benchmark-csv benchmark_serving.csv --backend:服务类型,如"tgi",vllm","mindspore" --host:服务IP地址,如127.0.0.1 --port:服务端口 --dataset:数据集路径 --dataset-type:支持三种 "alpaca","sharegpt","custom"。custom为自定义数据集。 --tokenizer:tokenizer路径,可以是huggingface的权重路径 --request-rate:请求频率,支持多个,如 0.1 1 2。实际测试时,会根据request-rate为均值的指数分布来发送请求以模拟真实业务场景。 --num-prompts:某个频率下请求数,支持多个,如 10 100 100,数量需和--request-rate的数量对应 --max-tokens:输入+输出限制的最大长度,模型启动参数--max-input-length值需要大于该值 --max-prompt-tokens:输入限制的最大长度,推理时最大输入tokens数量,模型启动参数--max-total-tokens值需要大于该值,tokenizer建议带tokenizer.json的FastTokenizer --benchmark-csv:结果保存路径,如benchmark_serving.csv 脚本运行完后,测试结果保存在benchmark_serving.csv中,示例如下图所示。 图1 动态benchmark测试结果
  • Step1 获取数据集 动态benchmark需要使用数据集进行测试,可以使用公开数据集,例如Alpaca、ShareGPT。也可以根据业务实际情况,使用generate_dataset.py脚本生成和业务数据分布接近的数据集。 公开数据集下载地址: ShareGPT: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json Alpaca: https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json 使用generate_dataset.py脚本生成数据集方法: generate_dataset.py脚本通过指定输入输出长度的均值和标准差,生成一定数量的正态分布的数据。具体操作命令如下,可以根据参数说明修改参数。 cd benchmark_tools python generate_dataset.py --dataset custom_dataset.json --tokenizer /path/to/tokenizer \ --min-input 100 --max-input 3600 --avg-input 1800 --std-input 500 \ --min-output 40 --max-output 256 --avg-output 160 --std-output 30 --num-requests 1000 generate_dataset.py脚本执行参数说明如下: --dataset:数据集保存路径,如custom_dataset.json --tokenizer:tokenizer路径,可以是HuggingFace的权重路径 --min-input:输入tokens最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-output:最小输出tokens长度,可以根据实际需求设置。 --max-output:最大输出tokens长度,可以根据实际需求设置。 --avg-output:输出tokens长度平均值,可以根据实际需求设置。 --std-output:输出tokens长度标准差,可以根据实际需求设置。 --num-requests:输出数据集的数量,可以根据实际需求设置。
  • SFT全参微调超参配置 本章节介绍SFT全参微调前的超参配置,可以根据实际需要修改。 SFT全参微调脚本sft-llama2-13b.sh,存放在AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/scripts/llama2目录下。训练前,可以根据实际需要修改超参配置。 微调任务配置,操作同预训练配置类似,不同点为RUN_TYPE类型不同,以及输入输出路径的配置的不同。 表1 SFT全参微调超参配置 参数 值 参数说明 DATA_PATH /home/ma-user/ws/datasets/alpaca/llama2-13b/alpaca-ft 必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名, 不加文件类型后缀。 TOKENIZER_PATH /home/ma-user/ws/tokenizers/llama2-13b-hf 必填。tokenizer保存地址。 SAVE_PATH $PWD/ckpt 中间保存结果,包含训练日志。 SAVE_CKPT_PATH ${SAVE_PATH}/ckpt-llama2-13b-sft 必填。训练ckpt保存地址。 MODEL_PATH /home/ma-user/ws/weight/llama2-13b-ckpt 必填。加载的权重文件路径。取值二选一: (推荐)上一步SFT全参微调权重转换章节中将HuggingFace格式转化为AscendSpeed格式的权重文件。 预训练完成后保存的权重文件,即预训练超参配置中的SAVE_CKPT_PATH值。如果使用此权重文件,需要将权重文件的名称改为release,将latest_checkpointed_iteration.txt的内容文件内容改为release,具体参考1和5.3-2。 MASTER_ADDR=${1:-localhost} localhost 主节点IP地址,默认为localhost。 多机多卡训练时需指定主节点IP地址。 MODEL_TYPE 13B 模型加载类型。 TRAIN_ITERS 2000 训练迭代周期。根据实际需要修改。 MBS 4 流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 非必填,默认值4。 GBS 64 训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。建议单机64,双机128。 TP 8 张量并行。 PP 1 流水线并行。 seq_length 4096 要处理的最大序列长度,默认值2048,建议改为4096。 RUN_TYPE sft 训练脚本类型:pretrain、sft、loral。此处填写sft,表示SFT全参微调。 父主题: SFT全参微调
共100000条