华为云用户手册

  • Jedis连接池参数配置建议 表1 Jedis连接池参数配置建议 参数 配置介绍 配置建议 maxTotal 最大连接,单位:个 根据Web容器的Http线程数来进行配置,估算单个Http请求中可能会并行进行的Redis调用次数,例如:Tomcat中的Connector内的maxConnections配置为150,每个Http请求可能会并行执行2个Redis请求,在此之上进行部分预留,则建议配置至少为:150 x 2 + 100= 400 限制条件:单个Redis实例的最大连接数。maxTotal和客户端节点数(CCE容器或业务VM数量)数值的乘积要小于单个Redis实例的最大连接数。 例如:Redis主备实例配置maxClients为10000,单个客户端maxTotal配置为500,则最大客户端节点数量为20个。 maxIdle 最大空闲连接,单位:个 配置与maxTotal一致。 minIdle 最小空闲连接,单位:个 一般来说建议配置为maxTotal的X分之一,例如此处常规配置建议为:100。 对于性能敏感的场景,为了防止经常连接数量抖动造成影响,可以配置与maxIdle一致,例如:400。 maxWaitMillis 最大获取连接等待时间,单位:毫秒 获取连接时最大的连接池等待时间,根据单次业务最长容忍的失败时间减去执行命令的超时时间得到建议值。例如:Http最长容忍的失败时间为15s,Redis请求的timeout设置为10s,则此处可以配置为5s。 timeout 命令执行超时时间,单位:毫秒 单次执行Redis命令最大可容忍的超时时间,根据业务程序的逻辑进行选择,出于对网络容错等考虑建议配置为不小于210ms。特殊的探测逻辑或者环境异常检测等,可以适当调整达到秒级。 minEvictableIdleTimeMillis 空闲连接逐出时间,大于该值的空闲连接一直未被使用则会被释放,单位:毫秒 如果希望系统不会经常对连接进行断链重建,此处可以配置一个较大值(xx分钟),或者此处配置为-1并且搭配空闲连接检测进行定期检测。 timeBetweenEvictionRunsMillis 空闲连接探测时间间隔,单位:毫秒 根据系统的空闲连接数量进行估算,例如系统的空闲连接探测时间配置为30s,则代表每隔30s会对连接进行探测,如果30s内发生异常的连接,经过探测后会进行连接排除。根据连接数的多少进行配置,如果连接数太大,配置时间太短,会造成请求资源浪费。对于几百级别的连接,常规来说建议配置为30s,可以根据系统需要进行动态调整。 testOnBorrow 向资源池借用连接时是否做连接有效性检测(ping),检测到的无效连接将会被移除。 对于业务连接极端敏感的,并且性能可以接受的情况下,可以配置为True,一般来说建议配置为False,启用连接空闲检测。 testWhileIdle 是否在空闲资源监测时通过ping命令监测连接有效性,无效连接将被销毁。 True testOnReturn 向资源池归还连接时是否做连接有效性检测(ping),检测到无效连接将会被移除。 False maxAttempts 在JedisCluster模式下,您可以配置maxAttempts参数来定义失败时的重试次数。 建议配置3-5之间,默认配置为5。 根据业务接口最大超时时间和单次请求的timeout综合配置,最大配置不建议超过10,否则会造成单次请求处理时间过长,接口请求阻塞。
  • Jedis连接池优势 Lettuce客户端及Jedis客户端比较如下: Lettuce: Lettuce客户端没有连接保活探测,错误连接存在连接池中会造成请求超时报错。 Lettuce客户端未实现testOnBorrow等连接池检测方法,无法在使用连接之前进行连接校验。 Jedis: Jedis客户端实现了testOnBorrow、testWhileIdle、testOnReturn等连接池校验配置。 开启testOnBorrow在每次借用连接前都会进行连接校验,可靠性最高,但是会影响性能(每次Redis请求前会进行探测)。 testWhileIdle可以在连接空闲时进行连接检测,合理配置阈值可以及时剔除连接池中的异常连接,防止使用异常连接造成业务报错。 在空闲连接检测之前,连接出现问题,可能会造成使用该连接的业务报错,此处可以通过参数控制检测间隔(timeBetweenEvictionRunsMillis)。
  • 查看D CS 性能监控 登录分布式缓存服务管理控制台。 在管理控制台左上角单击,选择实例所在的区域。 单击左侧菜单栏的“缓存管理”,进入缓存实例信息页面。 单击需要查看性能监控指标的缓存实例,进入实例基本信息页面。 单击“性能监控”,页面显示该实例的所有监控指标信息。 您也可以在需要查看的缓存实例的“操作”列,单击“查看监控”,进入 云监控服务 的页面查看,这和在缓存实例信息页面“性能监控”页签内容一致。
  • 连接Redis网络要求 任何兼容Redis协议的客户端都可以访问DCS的Redis实例,您可以根据自身应用特点选用任何Redis客户端,Redis支持的客户端列表请参见Redis客户端。 客户端连接Redis在不同的连接场景下,需要满足不同的连接约束: 使用同一VPC内客户端访问Redis实例。 安装了客户端的弹性云服务器必须与Redis实例属于同一个VPC。Redis 3.0/6.0企业版实例,弹性云服务器与Redis实例需配置为相同的安全组,或者安全组不同时配置安全组连通规则。Redis 4.0/5.0/Redis 6.0基础版实例,如果实例配置了IP白名单,需将弹性云服务器的IP地址加入实例IP白名单,以确保弹性云服务器与Redis实例的网络是连通的。 安全组配置,请参考如何选择和配置安全组。白名单配置,请参考管理实例白名单。 客户端与Redis实例所在VPC为相同Region下的不同VPC。 如果客户端与Redis实例不在相同VPC中,可以通过建立VPC对等连接方式连通网络,具体请参考:缓存实例是否支持跨VPC访问?。 客户端与Redis实例所在VPC不在相同Region。 如果客户端服务器和Redis实例不在同一Region,支持通过云专线打通网络,请参考云专线。 在跨Region访问Redis实例时,实例 域名 无法跨Region解析,无法通过域名访问。可以通过在hosts中手动配置域名与IP绑定关系或使用IP进行访问。 公网访问 客户端公网访问Redis 4.0/5.0/6.0实例时,请参考开启Redis 4.0/5.0/6.0公网访问并获取公网访问地址开启实例公网访问。 客户端公网访问Redis 3.0实例时,Redis缓存实例需要配置正确的安全组规则。当SSL加密功能关闭时,Redis实例的安全组入方向规则,必须允许外部地址访问6379端口;当SSL加密功能开启时,则必须允许外部地址访问36379端口。具体配置请参考常见问题:如何选择和配置安全组? 父主题: 配置Redis网络连接
  • OpenSearch集群版本说明 云搜索服务 CSS支持OpenSearch 1.3.6和OpenSearch 2.11.0版本。 表1 OpenSearch集群版本说明 集群版本 说明 OpenSearch 1.3.6 OpenSearch是从Elasticsearch 7.10.2版本fork的分支版本,完全兼容Elasticsearch API,并在此基础上修复部分问题。 当从Elasticsearch集群进行数据迁移,需要考虑兼容性时,建议选择此版本。 OpenSearch 2.11.0 OpenSearch最新版本,Elasticsearch API可能不再兼容,提供如Segment Replication等新特性的支持。 当业务首次上云,不需要考虑兼容性时,建议选择此版本。 父主题: CSS 集群管理
  • ServiceComb引擎微服务开发框架版本要求 微服务开发框架推荐版本如下表所示。 如果已经使用低版本的微服务开发框架构建应用,建议升级到推荐版本,以获取最稳定和丰富的功能体验。 如果已使用Spring Cloud微服务开发框架开发了应用,推荐使用Spring Cloud Huawei接入应用。 Spring Cloud Huawei各分支版本与Spring Boot、Spring Cloud、Java Chassis及JDK编译版本的配套关系请参考版本配套说明。 如果基于开源开放和业界生态组件新开发微服务应用,可选择Spring Cloud框架。 如果希望使用ServiceComb引擎提供的开箱即用的治理能力和高性能的RPC框架,可选择Java Chassis框架。 框架 推荐版本 说明 Spring Cloud Huawei 1.10.9-2021.0.x及以上 采用Spring Cloud Huawei项目提供接入支持: 适配的Spring Cloud版本为2021.0.5 适配的Spring Boot版本为2.6.13 Spring Cloud微服务开发框架的版本说明请参见:https://github.com/huaweicloud/spring-cloud-huawei/releases。 Java Chassis 2.7.10及以上 可以直接使用开源项目提供的软件包接入,不需要引用其他第三方软件包。 Java Chassis微服务开发框架的版本说明请参见:https://github.com/apache/servicecomb-java-chassis/releases。 系统升级、改造过程中,三方软件冲突是最常见的问题。随着软件迭代速度越来越快,传统的软件兼容性管理策略已经不适应软件的发展,您可以参考三方软件版本管理策略来解决版本冲突。
  • 条件(Condition) 条件(Condition)是SCP生效的特定条件,包括条件键和运算符。 条件键表示SCP语句的Condition元素中的键值。根据适用范围,分为全局级条件键和服务级条件键。 全局级条件键(前缀为g:)适用于所有操作,在鉴权过程中,云服务不需要提供用户身份信息,系统将自动获取并鉴权。详情请参见:全局条件键。 服务级条件键(前缀通常为服务缩写,如elb:)仅适用于对应服务的操作,详情请参见表4。 单值/多值表示API调用时请求中与条件关联的值数。单值条件键在API调用时的请求中最多包含一个值,多值条件键在API调用时请求可以包含多个值。例如:g:SourceVpce是单值条件键,表示仅允许通过某个 VPC终端节点 发起请求访问某资源,一个请求最多包含一个VPC终端节点ID值。g:TagKeys是多值条件键,表示请求中携带的所有标签的key组成的列表,当用户在调用API请求时传入标签可以传入多个值。 运算符与条件键、条件值一起构成完整的条件判断语句,当请求信息满足该条件时,SCP才能生效。支持的运算符请参见:条件键。 ELB定义了以下可以在SCP的Condition元素中使用的条件键,您可以使用这些条件键进一步细化SCP语句应用的条件。 表4 ELB支持的服务级条件键 服务级条件键 类型 单值/多值 说明 elb:AssociatePublicips boolean 单值 根据创建或修改负载均衡器时是否涉及创建或绑定公网操作筛选访问权限。
  • 操作(Action) 操作(Action)即为SCP策略中支持的授权项。 “访问级别”列描述如何对操作进行分类(list、read和write等)。此分类可帮助您了解在SCP策略中相应操作对应的访问级别。 “资源类型”列指每个操作是否支持资源级权限。 资源类型支持通配符号*表示所有。如果此列没有值(-),则必须在SCP策略语句的Resource元素中指定所有资源类型(“*”)。 如果该列包含资源类型,则必须在具有该操作的语句中指定该资源的URN。 资源类型列中必需资源在表中用星号(*)标识,表示使用此操作必须指定该资源类型。 关于AAD定义的资源类型的详细信息请参见资源类型(Resource)。 “条件键”列包括了可以在SCP策略语句的Condition元素中支持指定的键值。 如果该授权项资源类型列存在值,则表示条件键仅对列举的资源类型生效。 如果该授权项资源类型列没有值(-),则表示条件键对整个授权项生效。 如果此列条件键没有值(-),表示此操作不支持指定条件键。 关于AAD定义的条件键的详细信息请参见条件(Condition)。 您可以在SCP策略语句的Action元素中指定以下AAD的相关操作。 表1 AAD支持的授权项 授权项 描述 访问级别 资源类型(*为必须) 条件键 aad:alarmConfig:create 授予创建告警设置的权限。 write alarmConfig * - aad:alarmConfig:put 授予修改告警设置的权限。 write alarmConfig * - aad:alarmConfig:get 授予查询告警设置的权限。 read alarmConfig * - aad:alarmConfig:delete 授予删除告警设置的权限。 write alarmConfig * - aad:certificate:delete 授予删除证书的权限。 write certificate * - aad:certificate:list 授予查询证书列表的权限。 list certificate * - aad:certificate:set 授予修改域名对应证书的权限。 write certificate * - domain * g:EnterpriseProjectId aad:dashboard:delete 授予删除报表日志配置的权限。 write - - aad:dashboard:get 授予获取报表数据和日志配置的权限。 read - - aad:dashboard:set 授予修改报表日志配置的权限。 write - - aad:domain:create 授予添加防护域名的权限。 write domain * g:EnterpriseProjectId aad:domain:delete 授予删除防护域名的权限。 write domain * g:EnterpriseProjectId aad:domain:get 授予查询防护域名详情的权限。 read domain * g:EnterpriseProjectId aad:domain:list 授予查询域名列表的权限。 list domain * g:EnterpriseProjectId aad:domain:put 授予修改域名防护属性的权限。 write domain * g:EnterpriseProjectId aad:forwardingRule:create 授予添加转发规则的权限。 write forwardingRule * g:EnterpriseProjectId aad:forwardingRule:delete 授予删除转发规则的权限。 write forwardingRule * g:EnterpriseProjectId aad:forwardingRule:get 授予查询转发规则的权限。 read forwardingRule * g:EnterpriseProjectId aad:forwardingRule:list 授予导出转发规则的权限。 list forwardingRule * g:EnterpriseProjectId aad:forwardingRule:put 授予修改转发规则中的回源IP的权限。 write forwardingRule * g:EnterpriseProjectId aad:instance:create 授予创建实例的权限。 write instance * g:EnterpriseProjectId aad:instance:get 授予查询实例属性的权限。 read instance * g:EnterpriseProjectId aad:instance:list 授予查询实例列表的权限。 list instance * g:EnterpriseProjectId aad:instance:put 授予修改实例属性的权限。 write instance * g:EnterpriseProjectId aad:policy:create 授予添加防护规则的权限。 write policy * g:EnterpriseProjectId aad:policy:delete 授予删除防护规则的权限。 write policy * g:EnterpriseProjectId aad:policy:get 授予查询防护规则详情的权限。 read policy * g:EnterpriseProjectId aad:policy:list 授予查询防护规则列表的权限。 list policy * g:EnterpriseProjectId aad:policy:put 授予修改防护规则的权限。 write policy * g:EnterpriseProjectId aad:quotas:get 授予查询防护规格的权限。 read - - aad:whiteBlackIpRule:create 授予添加防护黑白名单的权限。 write whiteBlackIpRule * g:EnterpriseProjectId aad:whiteBlackIpRule:delete 授予删除防护黑白名单的权限。 write whiteBlackIpRule * g:EnterpriseProjectId aad:whiteBlackIpRule:list 授予查询防护黑白名单列表的权限。 list whiteBlackIpRule * g:EnterpriseProjectId aad:protectedIp:put 授予修改防护对象标签的权限。 write - - aad:protectedIp:list 授予查询防护对象列表的权限。 list - - aad:package:put 授予修改防护包的权限。 write package * - aad:package:list 授予查询防护包列表的权限。 list package * - aad:block:put 授予解封IP的权限。 write - - aad:block:list 授予查询封堵ip列表的权限。 list - - aad:block:get 授予查询封堵和解封信息的权限。 read - - aad:alarmConfig:create 授予创建告警设置的权限。 write alarmConfig * - aad:alarmConfig:put 授予修改告警设置的权限。 write alarmConfig * - aad:alarmConfig:get 授予查询告警设置的权限。 read alarmConfig * - aad:alarmConfig:delete 授予删除告警设置的权限。 write alarmConfig * - aad:certificate:delete 授予删除证书的权限。 write certificate * - aad:certificate:list 授予查询证书列表的权限。 list certificate * - aad:certificate:set 授予修改域名对应证书的权限。 write certificate * - domain * g:EnterpriseProjectId aad:dashboard:delete 授予删除报表日志配置的权限。 write - - aad:dashboard:get 授予获取报表数据和日志配置的权限。 read - - aad:dashboard:set 授予修改报表日志配置的权限。 write - - aad:domain:create 授予添加防护域名的权限。 write domain * g:EnterpriseProjectId aad:domain:delete 授予删除防护域名的权限。 write domain * g:EnterpriseProjectId aad:domain:get 授予查询防护域名详情的权限。 read domain * g:EnterpriseProjectId aad:domain:list 授予查询域名列表的权限。 list domain * g:EnterpriseProjectId aad:domain:put 授予修改域名防护属性的权限。 write domain * g:EnterpriseProjectId aad:forwardingRule:create 授予添加转发规则的权限。 write forwardingRule * g:EnterpriseProjectId aad:forwardingRule:delete 授予删除转发规则的权限。 write forwardingRule * g:EnterpriseProjectId aad:forwardingRule:get 授予查询转发规则的权限。 read forwardingRule * g:EnterpriseProjectId aad:forwardingRule:list 授予导出转发规则的权限。 list forwardingRule * g:EnterpriseProjectId aad:forwardingRule:put 授予修改转发规则中的回源IP的权限。 write forwardingRule * g:EnterpriseProjectId aad:instance:create 授予创建实例的权限。 write instance * g:EnterpriseProjectId aad:instance:get 授予查询实例属性的权限。 read instance * g:EnterpriseProjectId aad:instance:list 授予查询实例列表的权限。 list instance * g:EnterpriseProjectId aad:instance:put 授予修改实例属性的权限。 write instance * g:EnterpriseProjectId aad:policy:create 授予添加防护规则的权限。 write policy * g:EnterpriseProjectId aad:policy:delete 授予删除防护规则的权限。 write policy * g:EnterpriseProjectId aad:policy:get 授予查询防护规则详情的权限。 read policy * g:EnterpriseProjectId aad:policy:list 授予查询防护规则列表的权限。 list policy * g:EnterpriseProjectId aad:policy:put 授予修改防护规则的权限。 write policy * g:EnterpriseProjectId aad:quotas:get 授予查询防护规格的权限。 read - - aad:whiteBlackIpRule:create 授予添加防护黑白名单的权限。 write whiteBlackIpRule * g:EnterpriseProjectId aad:whiteBlackIpRule:delete 授予删除防护黑白名单的权限。 write whiteBlackIpRule * g:EnterpriseProjectId aad:whiteBlackIpRule:list 授予查询防护黑白名单列表的权限。 list whiteBlackIpRule * g:EnterpriseProjectId aad:protectedIp:put 授予修改防护对象标签的权限。 write - - aad:protectedIp:list 授予查询防护对象列表的权限。 list - - aad:package:put 授予修改防护包的权限。 write package * - aad:package:list 授予查询防护包列表的权限。 list package * - aad:block:put 授予解封IP的权限。 write - - aad:block:list 授予查询封堵ip列表的权限。 list - - aad:block:get 授予查询封堵和解封信息的权限。 read - - AAD的API通常对应着一个或多个授权项。表2展示了API与授权项的关系,以及该API需要依赖的授权项。 表2 API与授权项的关系 API 对应的授权项 依赖的授权项 POST /v1/{project_id}/cad/alart/config aad:alarmConfig:create - POST /v1/cnad/alarm-config aad:alarmConfig:put - DELETE /v1/cnad/alarm-config aad:alarmConfig:delete - GET /v1/{project_id}/cad/alart/list aad:alarmConfig:get - GET /v1/cnad/alarm-config aad:alarmConfig:get - DELETE /v1/aad/certificate/del aad:certificate:delete - GET /v1/{project_id}/cad/domains/certificatelist aad:certificate:list - GET /v1/aad/certificate-details aad:certificate:list - POST /v1/{project_id}/cad/domains/certificate aad:certificate:set - POST /v1/aad/configs/lts/delete aad:dashboard:delete - GET /v1/{project_id}/cad/ddosinfo/events_type aad:dashboard:get - GET /v1/aad/configs/lts_region aad:dashboard:get - GET /v1/aad/configs/lts aad:dashboard:get - GET /v1/{project_id}/waf/event/timeline aad:dashboard:get - GET /v1/{project_id}/waf/event/request/peak aad:dashboard:get - GET /v1/{project_id}/waf/event/attack/type aad:dashboard:get - GET /v1/{project_id}/waf/event/attack/source/num aad:dashboard:get - GET /v1/{project_id}/waf/event/attack/source aad:dashboard:get - GET /v1/{project_id}/cad/instances/flow_pps aad:dashboard:get - GET /v1/{project_id}/cad/instances/flow_bps aad:dashboard:get - GET /v1/{project_id}/cad/instances/events aad:dashboard:get - GET /v1/{project_id}/cad/ddosinfo/peak aad:dashboard:get - POST /v1/aad/configs/lts aad:dashboard:set - POST /v1/{project_id}/aad/domains aad:domain:create - POST /v1/{project_id}/cad/domains/del aad:domain:delete - GET /v1/{project_id}/aad/domains/{domain_id}/service-config aad:domain:get - GET /v1/{project_id}/cad/domains/ports aad:domain:list - GET /v1/{project_id}/cad/domains/name aad:domain:get - GET /v1/{project_id}/cad/domains/line/{enterprise_project_id} aad:domain:list - GET /v1/{project_id}/cad/domains/instances aad:domain:get - GET /v1/{project_id}/cad/domains/brief aad:domain:get - GET /v1/{project_id}/aad/domains/waf-list aad:domain:list - GET /v1/{project_id}/cad/domains aad:domain:list - POST /v1/{project_id}/aad/domains/{domain_id}/service-config aad:domain:put - POST /v1/{project_id}/cad/domains/switch aad:domain:put - POST /v1/{project_id}/cad/domains/cnameDispatchSwitch aad:domain:put - POST /v1/{project_id}/cad/domains/cname/switch aad:domain:put - POST /v1/{project_id}/cad/instances/protocol_rule aad:forwardingRule:create - POST /v1/{project_id}/cad/instances/protocol_rule/import aad:forwardingRule:create - DELETE /v1/{project_id}/cad/instances/protocol_rule/{rule_id} aad:forwardingRule:delete - POST /v1/{project_id}/cad/instances/protocol_rule/batchdel aad:forwardingRule:delete - GET /v1/{project_id}/cad/instances/rules aad:forwardingRule:get - GET /v1/{project_id}/cad/instances/protocol_rule/export aad:forwardingRule:list - PUT /v1/{project_id}/cad/instances/protocol_rule/{rule_id} aad:forwardingRule:put - POST /v1/{project_id}/cad/instances/cad_open aad:instance:create - GET /v1/{project_id}/cad/products aad:instance:create - GET /v1/{project_id}/{resource_type}/{resource_id}/tags aad:instance:get - GET /v1/{project_id}/cad/upgradeproducts/{instance_id} aad:instance:get - GET /v1/{project_id}/cad/instances/detail/{instance_id} aad:instance:get - GET /v1/{project_id}/aad/instances/brief-list aad:instance:list - GET /v1/{project_id}/cad/sourceip aad:instance:list - GET /v1/{project_id}/cad/instances aad:instance:list - POST /v1/{project_id}/{resource_type}/{resource_id}/tags/action aad:instance:put - POST /v1/{project_id}/cad/instances/cad_spec_upgrade aad:instance:put - PUT /v1/{project_id}/cad/instances/{instance_id}/name aad:instance:put - PUT /v1/{project_id}/cad/instances/{instance_id}/elastic/{ip_id} aad:instance:put - POST /v1/{project_id}/aad/policies/waf/cc aad:policy:create - POST /v1/cnad/policies aad:policy:create - DELETE /v1/{project_id}/aad/policies/waf/cc/{rule_id} aad:policy:delete - DELETE /v1/cnad/policies/{policy_id} aad:policy:delete - GET /v1/{project_id}/cad/flowblock aad:policy:get - GET /v1/cnad/policies/{policy_id} aad:policy:get - GET /v1/{project_id}/aad/policies/waf/cc aad:policy:list - GET /v1/cnad/policies aad:policy:list - PUT /v1/{project_id}/aad/policies/waf/cc/{rule_id} aad:policy:put - POST /v1/{project_id}/cad/flowblock/udp aad:policy:put - POST /v1/{project_id}/cad/flowblock/foreign aad:policy:put - POST /v1/cnad/policies/{policy_id}/ip-list/add aad:policy:put - POST /v1/cnad/policies/{policy_id}/bind aad:policy:put - POST /v1/cnad/policies/{policy_id}/ip-list/delete aad:policy:put - POST /v1/cnad/policies/{policy_id}/unbind aad:policy:put - PUT /v1/cnad/policies/{policy_id} aad:policy:put - GET /v1/{project_id}/aad/quotas/domain-port aad:quotas:get - GET /v1/{project_id}/scc/waf/quota aad:quotas:get - GET /v1/{project_id}/cad/quotas aad:quotas:get - GET /v1/{project_id}/cad/ip/quotas aad:quotas:get - GET /v1/{project_id}/cad/bwlist/quota aad:quotas:get - GET /v1/{project_id}/aad/user-configs aad:quotas:get - POST /v1/{project_id}/cad/bwlist aad:whiteBlackIpRule:create - POST /v1/{project_id}/cad/bwlist/delete aad:whiteBlackIpRule:delete - GET /v1/{project_id}/cad/bwlist aad:whiteBlackIpRule:list - PUT /v1/cnad/protected-ips/tags aad:protectedIp:put - GET /v1/cnad/protected-ips aad:protectedIp:list - POST /v1/cnad/packages/{package_id}/protected-ips aad:package:put - PUT /v1/cnad/packages/{package_id}/name aad:package:put - GET /v1/cnad/packages aad:package:list - GET /v1/cnad/packages/{package_id}/unbound-protected-ips aad:package:list - POST /v1/unblockservice/{domain_id}/unblock aad:block:put - GET /v1/unblockservice/{domain_id}/block-list aad:block:list - GET /v1/unblockservice/{domain_id}/unblock-quota-statistics aad:block:get - GET /v1/unblockservice/{domain_id}/block-statistics aad:block:get - GET /v1/unblockservice/{domain_id}/unblock-record aad:block:get - GET /v1/{project_id}/cad/instances/{instance_id}/elastic_count/{ip_id} aad:instance:get - GET /v1/{project_id}/cad/instances/{data_center}/elastic/{line}/{ip_id} aad:instance:get - GET /v1/aad/remain-vip-number aad:quotas:get - GET /v1/aad/instance/connection-num aad:dashboard:get - PUT /v1/{project_id}/cad/instances/{instance_id}/pp-switch aad:instance:put - GET /v1/aad-service/ces/{domain_id}/dims-info aad:instance:list - GET /v1/aad-service/ces/v2/{domain_id}/instances aad:instance:list - GET /v1/{project_id}/cad/instances/security-statistics aad:instance:list - GET /v1/aad/domain/instances/rules aad:domain:list - POST /v1/aad/policy/modify aad:policy:put - POST /v1/aad/geoip aad:policy:put - GET /v1/aad/geoip aad:policy:get - DELETE /v1/aad/geoip/{ruleId} aad:policy:delete - PUT /v1/aad/geoip/{ruleId} aad:policy:put - POST /v1/aad/whiteip aad:policy:put - GET /v1/aad/whiteip aad:policy:get - DELETE /v1/aad/whiteip aad:policy:delete - POST /v1/aad/custom aad:policy:put - GET /v1/aad/custom aad:policy:get - PUT /v1/aad/custom/{ruleId} aad:policy:put - DELETE /v1/aad/custom/{ruleId} aad:policy:delete - GET /v1/aad/policy/details aad:policy:get - POST /v1/aad/cc/intelligent/modify aad:policy:put - GET /v1/aad/geoip/map aad:policy:get - GET /v1/aad/instances/{instance_id}/{ip}/ddos-statistics aad:dashboard:get - GET /v1/aad/protected-domains/{domain_id} aad:domain:get - GET /v1/aad/protected-domains aad:domain:list - PUT /v1/aad/protected-domains/{domain_id} aad:domain:put - POST /v1/aad/instances/{instance_id}/{ip}/rules/batch-create aad:forwardingRule:create - POST /v1/aad/instances/{instance_id}/{ip}/rules/batch-delete aad:forwardingRule:delete - GET /v1/aad/instances/{instance_id}/{ip}/rules aad:forwardingRule:list - PUT /v1/aad/instances/{instance_id}/{ip}/rules/{rule_id} aad:forwardingRule:put - GET /v1/aad/instances aad:instance:list -
  • 安全组规则修改(可选) 该解决方案使用22端口用来远程登录弹性云服务器 ECS,默认对该方案创建的VPC子网网段放开,请参考修改安全组规则,配置IP地址白名单,以便能正常访问服务。 安全组实际是网络流量访问策略,包括网络流量入方向规则和出方向规则,通过这些规则为安全组内具有相同保护需求并且相互信任的云服务器、云容器、云数据库等实例提供安全保护。 如果您的实例关联的安全组策略无法满足使用需求,比如需要添加、修改、删除某个TCP端口,请参考以下内容进行修改。 添加安全组规则:根据业务使用需求需要开放某个TCP端口,请参考添加安全组规则添加入方向规则,打开指定的TCP端口。 修改安全组规则:安全组规则设置不当会造成严重的安全隐患。您可以参考修改安全组规则,来修改安全组中不合理的规则,保证云服务器等实例的网络安全。 删除安全组规则:当安全组规则入方向、出方向源地址/目的地址有变化时,或者不需要开放某个端口时,您可以参考删除安全组规则进行安全组规则删除。
  • 查询日志时报错提示:搜索语法错误,请修改查询语句 可能原因:不符合运算符的语法规则。 解决方法:每种运算符都有其对应的语法规则,请修改搜索语句,例如=运算符,语法规则要求右侧的value参数必须为数字类型。 可能原因:搜索语句中包含语法关键词。 解决方法:当日志中本身包含语法关键词且需要搜索时,搜索语句需要用双引号包裹,使其转变为普通字符。详细请参见搜索语法。例如and为语法关键词,查询语句field:and需要修改为field:"and"。
  • 绑定微服务引擎 只支持绑定状态为可用的微服务引擎。 不支持同时绑定多个微服务引擎。 绑定的微服务引擎需与环境在同一VPC内。 登录CAE控制台。 在左侧导航栏中选择“组件配置”。 在“组件配置”页面上方的下拉框中选择待操作的组件。 图1 选择组件 单击“ 微服务引擎CSE ”模块中的“配置”。 选择微服务引擎CSE。 单击“ServiceComb引擎专享版”,根据需求在列表中选择ServiceComb引擎。 图2 ServiceComb引擎专享版 单击“注册配置中心”,根据需求在列表中选择Nacos引擎。 图3 Nacos引擎 若已存在的微服务引擎CSE不满足业务需求时: 请单击“前往微服务引擎CSE控制台”,进入CSE控制台创建微服务引擎,具体步骤请参考创建ServiceCombl引擎或创建Nacos引擎。 选择创建的微服务引擎。 单击“保存”完成配置。 使配置生效。 如已完成组件部署,单击页面上方“生效配置”。在右侧弹框中确认配置信息,并单击“确定”,使配置生效。 如未完成组件部署,单击页面上方“配置并部署组件”,在右侧弹框中单击“确定”待部署执行完成后,配置生效。 绑定ServiceComb引擎后,可查看微服务运行相关的指标,根据丰富实时的仪表盘数据,对微服务做相应的治理动作。具体操作请参考使用ServiceComb引擎。 绑定Nacos引擎后,可对注册在Nacos上的服务进行管理。具体操作请参考使用Nacos引擎。
  • 支持审计的关键操作列表 表1 云审计 支持的全球加速服务操作列表 操作名称 资源类型 事件名称 创建加速器 accelerator createAccelerator 修改加速器 accelerator updateAccelerator 删除加速器 accelerator deleteAccelerator 创建监听器 listener createListener 修改监听器 listener updateListener 删除监听器 listener deleteListener 创建终端节点组 endpointGroup createEndpointGroup 修改终端节点组 endpointGroup updateEndpointGroup 删除终端节点组 endpointGroup deleteEndpointGroup 创建健康检查 healthCheck createHealthCheck 修改健康检查 healthCheck updateHealthCheck 删除健康检查 healthCheck deleteHealthCheck 创建终端节点 endpoint createEndpoint 修改终端节点 endpoint updateEndpoint 删除终端节点 endpoint deleteEndpoint
  • 监控全球加速 监控是保持全球加速可靠性、可用性和性能的重要部分,通过监控,用户可以观察全球加速资源。为使用户更好地掌握自己的全球加速运行状态,公有云平台提供了 云监控 。您可以使用该服务监控您的全球加速,执行自动实时监控、告警和通知操作,帮助您更好地了解全球加速的各项性能指标。 通过后续章节,您可以了解以下内容: 全球加速当前支持的监控指标 如何自定义全球加速告警规则 如何查看全球加速运行状态进行日常监控 父主题: 使用 CES 监控GA
  • 监控指标 表1 全球加速支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期 m1_cps 最大连接数 统计测量对象当前处理的最大连接数量。 单位:个 ≥ 0 全球加速实例 全球加速监听器 全球加速实例的接入大区 全球加速实例的目的区域 全球加速实例的接入点 全球加速实例的目的大区 60秒 m2_act_conn 活跃连接数 统计测量对象当前处理的活跃连接数量。 单位:个 ≥ 0 60秒 m3_inact_conn 非活跃连接数 统计测量对象当前处理的非活跃连接数量。 单位:个 ≥ 0 60秒 m4_ncps 新建连接数 统计测量对象当前处理的新建连接数量。 单位:个/秒 ≥ 0 60秒 m5_in_pps 流入数据包数 统计当前流入测量对象的数据包。 单位:个/秒 ≥ 0 60秒 m6_out_pps 流出数据包数 统计当前流出测量对象的数据包。 单位:个/秒 ≥ 0 60秒 m7_in_Bps 网络流入速率 统计每秒流入测量对象的网络流量。 单位:Byte/s ≥ 0 60秒 m8_out_Bps 网络流出速率 统计每秒流出测量对象的网络流量。 单位:Byte/s ≥ 0 60秒 m9_in_bandwidth 入网带宽 统计测量对象当前入网带宽。 单位:Bit/s ≥ 0 60秒 ma_out_bandwidth 出网带宽 统计测量对象当前出网带宽。 单位:Bit/s ≥ 0 60秒 mb_in_Bytes 入网流量 统计测试对象入云平台的网络流量 单位:Byte ≥ 0 60秒 mc_out_Bytes 出网流量 统计测试对象出云平台的访问流量。 单位:Byte ≥ 0 60秒
  • 维度 Key Value ga_accelerator_id 全球加速实例的ID ga_listener_id 全球加速监听器的ID ga_source_pop 全球加速实例的接入点 ga_source_area 全球加速实例的接入大区 ga_destination_region 全球加速实例的目的区域 ga_destination_area 全球加速实例的目的大区 ga_listener_region 全球加速监听器和目的区域 ga_pop_listener 全球加速接入点和监听器 ga_pop_region 全球加速接入点和目的区域 ga_pop_listener_region 全球加速接入点、监听器和目的区域 ga_source_destination_area 全球加速接入大区和目的大区 ga_outbound_region 全球加速实例的出云区域
  • AK/SK签名认证操作流程 AK/SK签名认证操作流程如下: API调用信息收集。 需要获取以下信息,包括: 用于组成请求URL的Endpoint和URI。 用于签名和认证的AK/SK。 用于区分租户的项目ID、子项目ID。 用于区分租户的账号名、账号ID。 用于API的环境信息。 用于Host的域名信息。 表1 信息收集项 信息项 说明 Endpoint 地区与终端节点,即云服务在不同Region有不同的访问域名。 获取方式请参考获取EndPoint。 URI API接口的调用路径及参数。 请参考各云服务的详细接口章节获取。 AK/SK 访问密钥对,包含密钥ID与密钥。AK/SK用于对请求内容进行签名。 获取方式请参考获取AK/SK。 Project_Id 项目ID,在大多数API接口调用时需要配置在URI中,用以识别不同的项目。 获取方式请参考获取项目ID。 X-Project-Id 子项目ID,在多项目场景中使用。如果云服务资源创建在子项目中,AK/SK认证方式下,操作该资源的接口调用需要在请求消息头中携带X-Project-Id。 获取方式请参考获取项目ID。 X-Domain-Id 账号ID,用途: Token认证方式下 获取Token 。 AK/SK认证方式下,全局服务的接口调用,需在请求消息头中配置X-Domain-Id。(全局服务:服务部署时不区分物理区域。如 IAM 、OBS、CDN等。) 获取方式请参考获取账号名和账号ID。 x-stage API接口的环境,请参考各云服务的接口API的环境信息。 Host API接口所属分组的调试域名或独立域名。 请参考各云服务的接口所属API分组中的域名信息。 API调用。 本手册提供Java、Go、Python、C等多种不同语言的签名SDK和调用示例,您可以从签名SDK与demo中选择需要的语言,然后参考示例与API调用说明部分,将SDK集成到您的应用中。 API选择华为IAM认证,也支持临时AK/SK,具体请参考使用临时AK/SK做签名。 父主题: AK/SK签名认证操作指导
  • 所有者创建共享 进入企业路由器列表页面。 通过名称过滤,快速找到目标企业路由器。 您可以通过以下两种操作入口,进入企业路由器的“共享”页签。 在企业路由器右上角区域,单击“管理共享”。 单击企业路由器名称,并选择“共享”页签。 在“共享”页签下,单击“创建共享”。 跳转到 RAM 的创建共享页面,根据界面提示,参考创建共享执行操作。 共享企业路由器时,在“指定共享资源”区域,在可选资源的下拉框中选择“er:instance”,系统会展示可选的企业路由器列表。 共享完成后,参考3,进入企业路由器的“共享”页签。 可以看到已创建的企业路由器共享记录。 共享创建完成后,需要使用者在一定时间内接受共享申请,才可以使用该企业路由器,具体请参见接受/拒绝共享邀请。
  • 常见问题 本文介绍华为云Flexus云服务各产品的常见问题文档索引。 产品类型 常见问题 文档索引 Flexus应用服务器 L实例 如何查找已购买的Flexus L实例资源? Flexus L实例、Flexus X实例与ECS的区别是什么? Flexus L实例有哪些套餐类型? Flexus L实例有公网IP吗? 当Flexus L实例使用流量超出套餐的月流量包限额时,如何计费? Flexus L实例常见问题 Flexus云服务器X实例 Flexus L实例、Flexus X实例与ECS的区别是什么? Flexus X实例的柔性算力如何理解? Flexus X实例的处理器以及基频睿频是什么? X实例支持哪些区域? Flexus X实例开启性能模式后,性能可以提升多少? Flexus X实例常见问题 Flexus云数据库RDS FlexusRDS的备份策略是什么? FlexusRDS的备份是如何收费的? FlexusRDS的root账号为什么没有super权限? 为什么FlexusRDS不支持MyISAM引擎? Flexus数据库常见问题 Flexus云容器实例 我可以用Flexus容器做什么? Flexus容器服务能否运行Windows容器? 停止Flexus容器服务后仍然会计费吗? Flexus容器常见问题
  • 弹性文件服务会占用用户的哪些资源? 为保证文件系统能够正常使用,弹性文件系统将会占用用户以下资源。 SFS容量型/通用文件系统: 创建文件系统时,会在用户填写的安全组下,开通111、445、2049、2051、2052端口的入规则。默认的源地址为0.0.0.0/0,用户后续可根据自己的实际情况,修改该地址。 如果创建加密的SFS容量型文件系统,将会使用用户填写的kms密钥进行加密。注意,该密钥如果删除,该文件系统的数据将无法使用。 SFS Turbo文件系统: 创建SFS Turbo文件系统时,会在用户填写的子网下创建多个私有IP和虚拟IP。 创建SFS Turbo文件系统时,会在用户填写的安全组下,开通111、445、2049、2051、2052、20048端口的入规则。默认的源地址为0.0.0.0/0,用户后续可根据自己的实际情况,修改该地址。 如果创建加密的SFS Turbo文件系统,将会使用用户填写的kms密钥进行加密。注意,该密钥如果删除,该文件系统的数据将无法使用。 在往文件系统的文件夹写数据的过程中会占用服务器的运行内存,但不会占用服务器磁盘的存储空间,文件系统使用的是独立空间。 父主题: 其他类
  • 昇腾能力应用地图 ModelArts支持如下开源模型基于Ascend卡进行训练和推理。 表1 LLM模型训练能力 支持模型 支持模型参数量 应用场景 软件技术栈 指导文档 Llama2 Llama2-7b Llama2-13b Llama2-70b 预训练、SFT全参微调、LoRA微调 ModelLInk 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.906) 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906) Llama3 Llama3-8b Llama3-70b 预训练、SFT全参微调、LoRA微调 ModelLInk Qwen qwen-7b qwen-14b qwen-72b 预训练、SFT全参微调、LoRA微调 ModelLInk Qwen1.5 qwen1.5-7b qwen1.5-14b qwen1.5-32b qwen1.5-72b 预训练、SFT全参微调、LoRA微调 ModelLInk Qwen2 qwen2-0.5b qwen2-1.5b qwen2-7b qwen2-72b 预训练、SFT全参微调、LoRA微调 ModelLInk Yi yi-6b yi-34b 预训练、SFT全参微调、LoRA微调 ModelLInk ChatGLMv3 glm3-6b 预训练、SFT全参微调、LoRA微调 ModelLInk GLMv4 glm4-9b 预训练、SFT全参微调、LoRA微调 ModelLInk Baichuan2 baichuan2-13b 预训练、SFT全参微调、LoRA微调 ModelLInk 表2 LLM模型推理能力 支持模型 支持模型参数量 应用场景 软件技术栈 指导文档 Llama Llama-7b Llama-13b Llama-65b 推理 Ascend-vLLM 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906) 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.906) Llama2 Llama2-7b Llama2-13b Llama2-70b 推理 Ascend-vLLM Llama3 Llama3-8b Llama3-70b 推理 Ascend-vLLM Yi yi-6b yi-9b yi-34b 推理 Ascend-vLLM deepseek deepseek-llm-7b deepseek-llm-67b deepseek-coder-instruct-33b 推理 Ascend-vLLM Qwen qwen-7b qwen-14b qwen-72b 推理 Ascend-vLLM Qwen1.5 qwen1.5-0.5b qwen1.5-7b qwen1.5-1.8b qwen1.5-14b qwen1.5-32b qwen1.5-72b qwen1.5-110b 推理 Ascend-vLLM Qwen2 qwen2-0.5b qwen2-1.5b qwen2-7b qwen2-72b 推理 Ascend-vLLM Baichuan2 baichuan2-7b baichuan2-13b 推理 Ascend-vLLM gemmma gemmma-2b gemmma-7b 推理 Ascend-vLLM ChatGLM2 chatglm2-6b 推理 Ascend-vLLM ChatGLM4 chatglm3-6b 推理 Ascend-vLLM GLMv4 glm4-9b 推理 Ascend-vLLM mistral mistral-7b mistral-8x7b 推理 Ascend-vLLM 表3 AIGC模型 模型名称 应用场景 软件技术栈 指导文档 Stable Diffusion 1.5 Stable Diffusion XL SFT全量微调训练 LoRA微调训练 Diffusers训练、PyTorch SD1.5基于DevServer适配PyTorch NPU Finetune训练指导(6.3.904) SDXL基于DevServer适配PyTorch NPU的Finetune训练指导(6.3.905) SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905) SDXL基于DevServer适配PyTorch NPU的LoRA训练指导(6.3.905) WebUI推理 WebUI推理、PyTorch SDXL WebUI基于Devserver适配PyTorch NPU推理指导(6.3.902) SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导(6.3.906) ComfyUI推理 WebUI推理、PyTorch SDXL&SD1.5 ComfyUI插件基于DevServer适配PyTorch NPU推理指导(6.3.906) SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导(6.3.906) Diffusers推理 diffusers推理、PyTorch SDXL Diffusers框架基于Devserver适配PyTorch NPU推理指导(6.3.902) Open-Sora 训练 PyTorch Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导(6.3.905) Qwen-VL 训练 推理 PyTorch Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.906) Qwen-VL基于DevServer适配Pytorch NPU的推理指导(6.3.906) LLaVA 训练 推理 PyTorch LLaVA模型基于DevServer适配PyTorch NPU预训练指导(6.3.906) LLaVA模型基于DevServer适配PyTorch NPU推理指导(6.3.906) Open-clip 训练 推理 PyTorch Open-Clip基于DevServer适配PyTorch NPU训练指导 表4 数字人模型 模型名称 应用场景 软件技术栈 指导文档 Wav2Lip 训练 PyTorch Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导(6.3.905) 推理 PyTorch Wav2Lip基于DevServer适配PyTorch NPU推理指导(6.3.906)
  • Step3 启动TensorBoard 在开发环境的JupyterLab中打开TensorBoard。 图1 JupyterLab中打开TensorBoard 在JupyterLab左侧导航创建名为“summary”的文件夹,将数据上传到“/home/ma-user/work/summary”路径。注:文件夹命名只能为summary否则无法使用。 进入“summary”文件夹,单击方式1,直接进入TensorBoard可视化界面。如图2所示。 图2 TensorBoard界面(1)
  • Step2 上传Summary数据 在开发环境中使用TensorBoard可视化功能,需要用到Summary数据。 Summary数据可以直接传到开发环境的这个路径下/home/ma-user/work/,也可以放到OBS并行文件系统中。 Summary数据上传到Notebook路径/home/ma-user/work/下的方式,请参见上传数据至Notebook。 Summary数据如果是通过OBS并行文件系统挂载到Notebook中,请将模型训练时产生的Summary文件先上传到OBS并行文件系统,并确保OBS并行文件系统与ModelArts在同一区域。在Notebook中启动TensorBoard时,Notebook会自动从挂载的OBS并行文件系统目录中读取Summary数据。
  • run.sh脚本测试ModelArts训练整体流程 自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下: 建议使用OBSutil作为和OBS交互的工具,如何在本机安装obsutil可以参考obsutil安装和配置。 训练数据、代码、模型下载。(本地使用硬盘挂载或者docker cp,在ModelArts上使用OBSutil) 启动脚本,用法无切换,一般就是到达执行目录,然后python xxx.py。 训练结果、日志、checkpoints上传。(本地使用硬盘挂载或者docker cp,在ModelArts上使用OBSutil) 可以用一个run脚本把整个流程包起来。run.sh脚本的内容可以参考如下示例: #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ##安装obsutil,完成AKSK配置。建议在基础镜像里做好。 #mkdir -p /opt && cd /opt #wget https://obs-community.obs.cn-north-1.myhuaweicloud.com/obsutil/current/obsutil_linux_amd64.tar.gz #tar -xzvf obsutil_linux_amd64.tar.gz && mv obsutil_linux_amd64_*/ utils #alias obsutil='/opt/utils/obsutil' #obsutil config -i=${HUAWEICLOUD_SDK_AK} -k=${HUAWEICLOUD_SDK_SK} -e=obs.cn-north-4.myhuaweicloud.com ##训练输入复制到容器镜像本地。 #/cache目录的容量较大。 DATA_URL=`echo ${DLS_DATA_URL} | sed /s/s3/obs/` mkdir –p /cache/data /opt/utils/obsutil cp –r –f ${DATA_URL} /cache/data ##执行训练任务。 #涉及conda env切换时。 source /xxxxx/etc/profile.d/conda.sh conda activate xxxenv conda info --envs #启动训练脚本。 cd xxxx python xxx.py ##复制输出结果到OBS目录。 TRAIN_URL=`echo ${DLS_TRAIN_URL} | sed /s/s3/obs/` /opt/utils/obsutil cp –r –f /cache/out ${TRAIN_URL} 把run.sh放到/opt目录,在实际启动任务的时候,使用以下命令启动任务即可: bash –x /opt/run.sh 把run.sh放到/root目录,可以在原镜像里增加一层,这一层就只是COPY这个run脚本。在基础镜像里可以一起把obsutil安装、配置好。参考如下dockerfile: FROM $your_docker_image_tag RUN mkdir -p /opt && cd /opt && \ wget https://obs-community.obs.cn-north-1.myhuaweicloud.com/obsutil/current/obsutil_linux_amd64.tar.gz && \ tar -xzvf obsutil_linux_amd64.tar.gz && mv obsutil_linux_amd64_*/ utils && \ /opt/utils/obsutil config -i=${HUAWEICLOUD_SDK_AK} -k=${HUAWEICLOUD_SDK_SK} -e=obs.cn-north-4.myhuaweicloud.com COPY run.sh /opt/run.sh ModelArts的容器会有一个/cache目录,这个目录挂载的硬盘容量最大。建议下载数据和中间数据都存到这个目录中,防止因硬盘占满导致任务失败。 父主题: FAQ
  • 管理模型文件 预览文件 在模型详情页,选择“模型文件”页签。单击文件名称即可在线预览文件内容。 仅支持预览大小不超过10MB、格式为文本类或图片类的文件。 下载文件 在模型详情页,选择“模型文件”页签。单击操作列的“下载”,即可下载文件到本地。 删除文件 在模型详情页,选择“模型文件”页签。单击操作列的“删除”,确认后即可将已经托管的文件从AI Gallery仓库中删除。 文件删除后不可恢复,请谨慎操作。
  • 编辑模型介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在模型详情页,选择“模型介绍”页签,单击右侧“编辑”。 编辑模型基础设置和模型描述。 表2 模型介绍的参数说明 参数名称 说明 基础设置 中文名称 显示模型的名称,不可编辑。 许可证 模型遵循的使用许可协议,根据业务需求选择合适的许可证类型。 语言 选择使用模型时支持的输入输出语言。 框架 选择构建模型使用的AI开发框架。 任务类型 选择模型支持的任务类型,不同任务类型支持的AI Gallery工具链服务请参见表3。 文本问答:从给定文本中检索问题的答案,适用于从文档中搜索答案的场景。 文本生成:基于给定文本进行续写,生成新的文本。 其他类型:基于实际场景选择合适的任务类型。 说明: 如果模型的“任务类型”是除“文本问答”和“文本生成”之外的类型,则被定义为自定义模型。自定义模型必须要满足自定义模型规范,才支持使用AI Gallery工具链服务。 硬件资源 选择支持运行该模型的硬件类型。 最低可运行规格 设置能够运行该模型的最低计算规格。在AI Gallery工具链服务中使用该模型时,只能选取等同或高于该规格的算力资源进行任务下发。 是否支持分布式训练/推理 选择该模型资产是否支持在单机多卡的资源节点上进行并行训练或推理。 README.md - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。 当托管的是 自定义镜像 时,填写的内容要满足自定义镜像规范,否则该镜像无法正常使用AI Gallery工具链服务(微调大师和在线推理服务)。 说明: 建议写清楚模型的使用方法,方便使用者更好的完成训练、推理任务。 表3 任务类型支持的AI Gallery工具链服务 任务类型 微调大师 在线推理服务 AI应用 文本问答/文本生成 支持 支持 支持 其他类型 支持 支持 不支持 编辑完成后,单击“确认”保存修改。
  • 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的名称、描述,让资产更吸引人。也可以修改资产的可见性。 编辑模型介绍 在模型详情页,单击“模型介绍”页签。 单击右方区域的按钮。 可更改模型的基础设置,包括许可证、语言、框架、TASK和硬件资源等信息。 在模型介绍框中,输入模型的简要介绍等信息。 单击“确定”后,完成修改。 编辑设置 基本设置 单击右侧的“编辑”,在编辑框中输入资产的描述内容,包含但不局限于背景、简介、使用方法、约束条件等。 编辑完成之后单击“确定”。 关联资产 在输入框中输入资产ID后,单击“关联”即可关联其他资产,更方便其他使用者进行查找。算法可以关联数据集资产。当算法关联了数据集时,数据集页面也显示关联了算法。 选择“关联资产”页签,单击右上方的“编辑”,在搜索框中输入待关联资产的ID,单击“关联”。 在弹出的“资产信息”页面,单击“确定”即可关联资产。 权限设置 您可以选择更改您的资产可见性,可选择“公开”或“私密”(私密状态下,也可以选择“仅自己可见”或“指定成员可见”)。
  • 克隆 MRS 集群作业 本章节介绍如何克隆作业列表中的作业。 用户每次只能克隆1个作业,单击克隆后的作业信息不再区分显示运行程序参数和执行程序参数,而是合并显示为命令参考。 DistCp、SQL类(SparkSQL、HiveSQL等)作业类型无法克隆。 该功能暂时仅在北京四region开放,如需体验,请联系运维人员。 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 选择“作业管理”。 在需要克隆作业的对应的“操作”列中,单击“克隆”,弹出“克隆作业”对话框。 配置克隆参数。 若无参数修改,无需执行本步骤。 若有参数修改,根据实际情况填写参数,单击“确定”下发克隆作业。 命令参考(由添加作业时的“运行程序参数”与“执行程序参数”组成):在原有的命令后,按“, {新参数}”的格式继续新增参数。 增加新的运行程序参数:新的命令参考是“运行程序参数, {新的运行程序参数}, 执行程序参数”。 增加新的执行程序参数:新的命令参考是“运行程序参数, 执行程序参数, {新的执行程序参数}”。 比如原有的命令参考为: -D, 10, -F, 12, abc ,增加新的运行程序参数时,则新的命令参考为:-D, 10, -F, 12, -G, 18, abc;增加新的执行程序参数时,则新的命令参考为:-D, 10, -F, 12, abc, efg。用户根据实际需求按照该规则(, 新参数)追加新的参数。 服务配置参数:在原有的参数后,按“, {key}={value}”的格式添加新的服务配置参数。比如原有参数为appender.out.strategy.max=10,则新的服务参数为:appender.out.strategy.max=10, appender.err.strategy.max=15。用户根据实际需求按照该规则(, {key}={value})追加新的参数。 克隆作业时,逗号+空格的格式只能在两个参数间存在;若存在于参数中,作业可能执行失败。 在原有参数后继续添加参数,逗号后需要有空格,否则作业可能执行失败。 克隆的作业返回参数不含有fs.obs.access.key、fs.obs.secret.key,若需要fs.obs.access.key、fs.obs.secret.key,需在“服务配置参数”中添加。 单击“确定”下发克隆作业。 作业克隆成功后,作业状态为“已完成”状态。 父主题: 管理MRS集群作业
  • 告警解释 系统每一个小时获取指定目录下直接子文件/目录的数量,判断其是否达到HDFS目录最大子文件/目录个数的百分比阈值(默认为“90%”),如果超过该阈值,则触发告警。 当发出告警的目录的子目录/文件数所占百分比低于阈值后,该告警将自动恢复。当监控开关关闭,所有目录对应的该告警都将自动恢复。当从监控列表中移除指定目录时,该目录对应的告警也会自动恢复。 HDFS目录的子文件/目录最大个数由参数“dfs.namenode.fs-limits.max-directory-items”指定,默认值为“1048576”。如果一个目录的子文件/目录数量超过该值,则无法再在该目录下创建新的子文件/目录。 要监控的目录列表由参数“dfs.namenode.directory-items.monitor”指定,默认值为“/tmp,/SparkJobHistory,/mr-history”。 监控开关由参数“dfs.namenode.directory-items.monitor.enabled”指定,默认值为“true”,即该检测默认开启。
  • MRS集群节点类型说明 MRS集群由多个弹性云服务器节点组成,根据节点的不同规格,系统以节点组的方式进行管理,不同的节点组一般选用不同的云服务器规格。 根据节点上部署的组件角色的不同,集群内的节点类型可分为Master节点、Core节点、Task节点。 表1 集群节点分类 节点类型 功能 Master节点 MRS集群管理节点,节点上部署 OMS Server负责管理和监控集群。 在MRS集群创建成功后,集群内的节点名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。 Master节点可以通过弹性云服务器界面的VNC方式登录,也可以通过SSH方式登录,并且Master节点可以免密码登录到其他节点。 系统自动将Master节点标记为主备管理节点,并支持MRS集群管理的高可用特性。如果主管理节点无法提供服务,则备管理节点会自动切换为主管理节点并继续提供服务。 查看Master1节点是否为主管理节点,请参见查看MRS集群主备管理节点。 Core节点 MRS集群工作节点,负责处理和分析数据,并存储过程数据。 在MRS集群详情的“节点管理”页面,节点类型包含“Core”的节点组所包含的节点为Core节点。 Task节点 计算节点,集群计算资源不足时通过配置弹性伸缩策略实现自动扩缩容。 在MRS集群详情的“节点管理”页面,节点类型为“Task”的节点组所包含的节点为Task节点。 如果数据节点组内除基础必选角色外仅部署了NodeManager(Yarn)角色或Supervisor(Storm)角色,则该节点组为Task类型节点组。 MRS集群节点支持用户远程登录,远程登录包含界面登录和SSH登录两种方式: 界面登录:直接通过弹性云服务器管理控制台提供的远程登录功能,登录到集群节点的Linux命令行操作界面。 SSH登录:仅适用于Linux弹性云服务器,您可以使用远程登录工具(例如PuTTY)登录弹性云服务器,此时需要该弹性云服务器绑定弹性IP地址。 集群节点申请和绑定弹性IP,请参见申请EIP并绑定至ECS。 可以使用密钥方式也可以使用密码方式登录Linux弹性云服务器,详情请参见登录MRS集群节点。 父主题: 业务选型
  • 恢复租户数据 进入租户管理页面。 通过MRS管理控制台操作:在MRS管理控制台单击待操作的集群,在集群详情页,单击“租户管理”。 通过Manager操作(MRS 3.x及之后版本集群):在Manager页面单击“租户资源”。 通过Manager操作(MRS 2.x及之前版本集群):在Manager页面单击“租户管理”。 在左侧租户列表,单击某个租户节点。 检查租户数据状态。 在“概述”,查看租户状态,绿色表示租户可用,灰色表示租户不可用。 单击“资源”,查看“Yarn”或者“HDFS 存储”状态,绿色表示资源可用,灰色表示资源不可用。 单击“服务关联”,查看关联的服务表格的“状态”列,“良好”表示组件可正常为关联的租户提供服务,“故障”表示组件无法为租户提供服务。 任意一个检查结果不正常,需要恢复租户数据,请执行4。 单击“恢复租户数据”。 如果通过MRS 3.x及之后版本集群的Manager操作,请单击,在弹出的确认窗中输入当前登录的用户密码确认身份,单击“确定”。 在弹出的窗口中,选择一个或多个需要恢复数据的组件,单击“确定”,等待系统自动恢复租户数据。
共100000条